DE Pre BABILIDADE j Esta obra é uma introdução à 


Probabilidade e à Estatistica, tendo 
Í ISTICA sido elaborada para alunos das áreas 

de ciências biológicas, exatas e 

humanas. Ao contrário de outros 

rimento M agalhães textos elementares, os tópicos de 

Foitos Pedroso de Lima Estatística Descritiva não foram | 
apresentados em um único capítulo; 
procurou-se introduzir esses conceitos 
em paralelo com outros tópicos mais 
teóricos no decorrer do livro. Desse 
modo, buscou-se desenvolver ó texto 
de forma similar ao uso prático da 
Estatística, quando normalmente um 
conjunto de dados é explorado | 
descritivamente antes da modelagem 
e aplicação de técnicas estatísticas. 
Não foi explicitado o uso de nenhum 
software em particular, uma vez que se 
procurou enfatizar as idéias envolvidas 
e não a habilidade computacional. 
Não obstante, vários exercícios — 
apresentados ao fim de cada seção 
e em uma seção específica ao final 
de cada capítulo — assumem o uso de 
computadores para sua resolução e 
alguns conjuntos de dados mais 
extensos são disponibilizados na 
internet, o que estimula o leitor a 
utilizar um programa computacional 


com o qual tenha familiaridade para 


auxílio nas resoluções. 
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Prefácio da 6º edição 


Este texto é fruto da nossa experiência de vários anos como professores do 
Departamento de Estatística do Instituto de Matemática e Estatística da 
Universidade de São Paulo. Nesse período, foram ministradas diversas disciplinas 
básicas de Estatística para cursos nas áreas de Ciências Humanas, Exatas e 
Biológicas. 

Buscamos enfatizar dois aspectos neste livro. O primeiro se refere a 
repartir a Estatística Descritiva ao longo do texto, suavizando, assim, a transição 
para Probabilidade e Variáveis Aleatórias. Em geral, os alunos sentem o impacto 
de uma maior formalização e, muitas vezes, não conseguem estabelecer o elo de 
ligação entre essas partes. Um segundo interesse é transmitir a importância da 
computação na Estatística. Não atrelamos o texto a nenhum software específico, 
permitindo que o conhecimento computacional anterior dos estudantes pudesse ser 
incorporado, minimizando o desgaste de um novo aprendizado. Ressaltamos que 
vários software disponíveis no mercado podem ser utilizados. Os arquivos 
mencionados no decorrer do livro estão disponíveis em www.ime.usp.br/-noproest 
juntamente com outras informações de interesse. 

O livro contém exercícios ao final de seções e capítulos. Os exercícios de 
seção são mais diretos e visam a aplicação imediata dos conceitos discutidos, Ao 
fim de cada capítulo, um considerável número de exercícios ajuda os estudantes na 
fixação global das idéias apresentadas. Também são propostos exercícios para 
serem desenvolvidos com a ajuda do computador. O principal objetivo desses 
exercícios é enfatizar as idéias estatísticas envolvidas e não a habilidade 
computacional. No Apêndice: B, . apresentamos as soluções comentadas dos 
exercícios de séção e fornecemos as respostas para os exercícios ímpares de fim de 
capítulo. and e 
Em relação à edição anterior, a sexta edição apresenta pequenas 
modificações. Uma das figuras do Capítulo 7 foi mudada para o Capítulo 6, local 
que nos pareceu mais apropriado. Foram acrescentados exercícios em alguns 
capítulos. Os erros em respostas, identificados até então, foram corrigidos, 
Pequenas alterações de redação também foram feitas. As mudanças, em relação à 
quinta edição, estão listadas no endereço Internet mencionado acima. 

Ao longo das várias edições, diversos colegas contribuiram com sugestões, 
Entre eles destacamos Adilson Simonis, Cláudia Monteiro Peixoto, Clélia Toloi, 
Denise Botter, Elisabeti Kira, Elisete da Conceição Q. Aubin, Julio da Motta 
Singer, Lighia B. Horodynski-Matsushigue, Lúcia P. Barroso, Marli Mikael, 
Nelson Tanaka, Rinaldo Artes e Silvia Ferrari. Maria Cecília Camargo Magalhães 


vii 
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colaborou na revisão final da redação. A estudante Tatyana Maya Okano auxiliou 
na correção das respostas de vários exercícios. Apontamos, ainda, o recebimento 
de várias mensagens eletrônicas com comentários e/ou sugestões. A todos que 
colaboraram, o nosso sincero muito obrigado. Agradecemos, ainda, aos alunos de 
várias unidades da USP, que apontaram erros e deram sugestões. Finalmente, 
gostaríamos de agradecer a Luís Ricardo Câmara, da ADUSP- Associação dos 
Docentes da USP, pela diagramação das tabelas e auxílio na arte final de algumas 
das figuras apresentadas no texto. l 

Pedimos, desde já, desculpas pelos erros que serão eventualmente 
identificados nesta nova edição. As críticas e sugestões de colegas e estudantes 
serão muito bem-vindas e, certamente, auxiliarão na melhoria da próxima versão. 


São Paulo, janeiro de 2004 


Marcos N. Magalhães e Antonio Carlos P. Lima 
(marcos @ime.usp.br) (acarlos @ime.usp.br) 
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Capítulo 1 


Introdução à Análise Exploratória de Dados 


1.1 O que é Estatística? 


Neste capítulo, pretendemos formalizar alguns conceitos que constituem a 
base de técnicas desenvolvidas com a finalidade de auxiliar a responder, de forma 
objetiva e segura, situações que envolvem uma grande quantidade de 
informações. A utilização dessas técnicas, destinadas à análise de situações 
complexas ou não, tem aumentado e faz parte de nosso cotidiano. Tome-se, por 
exemplo, as transmissões esportivas. Em jogos de futebol, o número de 
escanteios, o número de faltas cometidas e o tempo de posse de bola são dados 
geralmente fornecidos ao telespectador e fazem com que as conclusões sobre qual, 
time foi o melhor em campo, se tornem objetivas (não que isso implique que 
tenha sido o vencedor...). O que tem levado a essa quantificação de nossas vidas 
no dia a dia? Um fator importante é a popularização dos computadores. No 
passado, tratar uma grande massa de números era uma tarefa custosa e cansativa, 
que exigia horas de trabalho tedioso. Recentemente, no entanto, grande 
quantidade de informações pode ser analisada rapidamente com um computador 
pessoal e programas adequados. Desta forma, o computador contribui, 
positivamente, na difusão e uso de métodos estatísticos. Por outro lado, O 
computador possibilita uma automação que pode levar um indivíduo sem preparo 
específico a utilizar técnicas inadequadas para resolver um dado problema. Assim, 
é necessário a compreensão dos conceitos básicos da Estatística, bem como as 
suposições necessárias para o seu uso de forma criteriosa. Entendemos a 
Estatística como um conjunto de técnicas que permite, de forma sistemática, 
organizar, descrever, analisar e interpretar dados oriundos de estudos ou 
experimentos, realizados em qualquer área do conhecimento. Estamos 
denominando por dados um (ou mais) conjunto de valores, numéricos ou não, À 
aplicabilidade das técnicas a serem discutidas se dá nas mais variadas áreas da 
atividade humana. 

A grosso modo podemos dividir a Estatística em três áreas: 

restos Sra o Estatística Descritiva | 
o Probabilidade | 
"o Inferência Estatística 


2 Capítulo 1: Introdução à Análise Exploratória de Dados 


Estatística Descritiva é, em geral, utilizada na etapa inicial da análise, 
quando tomamos contato com os dados pela primeira vez. Objetivando tirar 
conclusões de modo informal e direto, a maneira mais simples seria a observação 
dos valores colhidos. Entretanto, ao depararmos com uma grande massa de dados, 
percebemos, imediatamente, que a tarefa pode não ser simples. Para tentar 
depreender dos dados informações a respeito do fenômeno sob estudo, é preciso 
aplicar alguma técnica que nos permita resumir a informação daquele particular 
conjunto de valores. Em outras palavras, a estatística descritiva pode ser definida 
como um conjunto de técnicas destinadas a descrever e resumir os dados, a fim de 
que possamos tirar conclusões a respeito de características de interesse. 

Probabilidade pode ser pensada como a teoria matemática utilizada para 
se estudar a incerteza oriunda de fenômenos de caráter aleatório. Apesar de ser 
uma área extremamente atraente e estudada do ponto de vista matemático, 
abordaremos, aqui, apenas os aspectos necessários para as técnicas estatísticas 
apresentadas neste livro. 

Inferência Estatística é o estudo de técnicas que possibilitam a 
extrapolação, a um grande conjunto de dados, das informações e conclusões 
obtidas a partir de subconjuntos de valores, usualmente de dimensão muito 
menor. Deve ser notado que, se tivermos acesso a todos os elementos que 
desejamos estudar, não é necessário o uso das técnicas de inferência estatística. 
Entretanto, elas são indispensáveis quando existe a impossibilidade de acesso a 
todo o conjunto de dados, por razões de natureza econômica, ética ou física. 

' Estudos complexos que envolvem o tratamento estatístico dos dados, 
usualmente, incluem as três áreas mencionadas acima. Na terminologia estatística, 
o grande conjunto de dados que contém a característica que temos interesse 
recebe o nome de população. Esse termo refere-se não somente a uma coleção de 
indivíduos, mas também ao alvo sobre o qual reside nosso interesse. Assim, nossa 
população pode ser tanto todos os habitantes de Sorocaba, como todas as 
lâmpadas produzidas por uma fábrica em um certo período de tempo, ou todo o 
sangue no corpo de uma pessoa. Algumas vezes podemos acessar toda a 
população para estudarmos características de interesse, mas, em muitas situações, 
tal procedimento não pode ser realizado. Em geral, razões econômicas são as mais 
determinantes dessas situações. Por exemplo, uma empresa, usualmente, não 
dispõe de verba suficiente para saber o que pensam todos os consumidores de 
seus produtos. Há ainda razões éticas, quando, por exemplo, os experimentos de 
laboratório envolvem o uso de seres vivos. Além disso, existem casos em que a 
impossibilidade de se acessar toda a população de interesse é incontornável. Na 
análise do sangue de uma pessoa ou em um experimento para determinar o tempo 
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de funcionamento das lâmpadas produzidas por uma indústria, não podemos 
observar toda população de interesse. 

Tendo em vista as dificuldades de várias naturezas para se observar todos 
os elementos da população, tomaremos alguns deles para formar um grupo a ser 
estudado. Este subconjunto da população, em geral com dimensão sensivelmente - 
menor, é denominado amostra. A Figura 1.1 ilustra as etapas da análise 
estatística. 


População 


Amostra 


Figura 1.1: População e amostra. 


A seleção da amostra pode ser feita de várias maneiras, dependendo, entre 
outros fatores, do grau de conhecimento que temos da população, da quantidade 
de recursos disponíveis e assim por diante. Devemos ressaltar que, em princípio, a 
seleção da amostra tenta fornecer um subconjunto de valores o mais parecido 
possível com a população que lhe dá origem. A amostragem mais usada é q 
amostra casual simples, em que selecionamos ao acaso, com ou sem reposição, OS 
itens da população que farão parte da amostra. 

Eventualmente, se tivermos informações adicionais a respeito da 
população de interesse, podemos utilizar outros esquemas de amostragem mais 
sofisticados. Por exemplo, se numa cidade, tivermos mais mulheres do que 
homens, podemos selecionar um certo número de indivíduos entre as mulheres e 
outro número entre os homens. Esse procedimento é conhecido como 
amostragem estratificada. Outras vezes, pode existir uma relação numerada dos 
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itens da população (uma lista de referência) que nos permitiria utilizar a chamada 
amostragem sistemática em que selecionamos os indivíduos de forma pré- 
determinada, por exemplo de 8 em 8 ou de 10 em 10. Outros esquemas de 
amostragem poderiam ser citados e todos fazem parte da chamada Teoria da 
Amostragem, cujos detalhes não serão aprofundados neste livro. Assim sendo, 
terminamos esta seção mencionando que quanto mais complexa for a amostragem, 
maiores cuidados deverão ser tomados nas análises estatísticas utilizadas; em 
contrapartida, o uso de esquemas de amostragem mais elaborados pode levar a 
uma diminuição no tamanho de amostra necessário para uma dada precisão. 


Exercícios da Seção 1.1: 


1. Classifique em verdadeiro ou falso as seguintes afirmações: 

a. Estatística é um conjunto de técnicas destinadas a organizar um conjunto de 
valores numéricos. 

b. Sempre que estivermos trabalhando com números, deveremos utilizar a 
Inferência Estatística. 

c. A Estatística Descritiva fornece uma maneira adequada de tratar um 
conjunto de valores, numéricos ou não, com a finalidade de conhecermos o 
fenômeno de interesse. À 

d. Qualquer amostra representa, de forma adequada, uma população. 

e. As técnicas estatísticas não são adequadas para casos que envolvam 
experimentos destrutivos como, por exemplo, queima de equipamentos, 
destruição de corpos de provas, etc. 


2. Para as situações descritas a seguir, identifique a população e a amostra 
correspondente. Discuta a validade do processo de inferência estatística para 
cada um dos casos. 

a. Para avaliar a eficácia de uma campanha de vacinação no Estado de São 
Paulo, 200 mães de recém-nascidos, durante o primeiro semestre de um 
dado ano e em uma dada maternidade em São Paulo, foram entrevistadas a 
respeito da última vez em que vacinaram seus filhos. 

b. Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. 

c. Para verificar a audiência de um programa de TV, 563 indivíduos foram 
entrevistados por telefone com relação ao canal em que estavam 
sintonizados. 

d. A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 
pessoas foram entrevistadas em Brasília. 
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3. Discuta, para cada um dos casos abaixo, os cuidados que precisam ser tomados 

para garantir uma boa conclusão a partir da amostra. 

a. Um grupo de crianças será escolhido para receber uma nova vacina contra 
meningite. 

b. Sorteamos um certo número de donas de casa, para testar um novo sabão em 
pó. 

c. Uma fábrica deseja saber se sua produção de biscoitos está com o sabor 
previsto. 

d. Aceitação popular de um certo projeto do governo. 
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Nesta seção, discutiremos alguns procedimentos que podem ser utilizados 
para organizar e descrever um conjunto de dados, seja em uma população ou em 
uma amostra. Veremos como conceitos relacionados à Teoria das Probabilidades 
aparecem naturalmente, levando-nos, assim, a uma exposição mais criteriosa do 
assunto. , 

A questão inicial é: dado um conjunto de dados, como "tratar" os valores, 
numéricos ou não, a fim de se extrair informações a respeito de uma ou mais 
características de interesse? Basicamente, faremos uso de tabelas de fregiiências è 
gráficos, notando que tais procedimentos devem levar em conta a natureza dos 
dados. 

Suponha, por exemplo, que um questionário foi aplicado aos alunos do 
primeiro ano de uma escola fornecendo as seguintes informações: 


Id: identificação do aluno 

Turma: turma a que o aluno foi alocado (A ou B) 

Sexo: F se feminino, M se masculino 

Idade: -idade em anos 

Alt: altura em metros 

Peso: peso em quilogramas 
Filhos: número de filhos na família 

Fuma: hábito de fumar, sim ou não 
Toler: tolerância ao cigarro: 

(I) indiferente, (P) incomoda pouco e (M) incomoda muito 
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Exerc: horas de atividade física, por semana 
Cine: número de vezes em que vai ao cinema por semana Tabela 1.1: Informações de questionário estudantil - dados brutos. 
OpCine: opinião a respeito das salas de cinema na cidade: 


(B) regular a boa e (M) muito boa Id Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine OpCine TV OpTV 


TV: horas gastas assistindo TV, por semana L A F 17 1,60 60,5 2 NAO P 0 1 B 16 R 
i er 3 i m i: 2 A F 18 1,69 55,0 1 NAO M 0 1 B 7 R 
OpTV: opinião a respeito da qualidade da programação na TV: > A M 18 1.85728 2 NAO P 5 2 M 15 R 
(R) ruim, (M) média, (B) boa e (N) não sabe 4 A M 25 1,85 80,9 2 NAO P 5 2 B 20 R 
5 A F 19 1,5855,0 1 NAO M 2 2 B 5 R 
6 A M 19 1,76 60,0 3 NAO M 2 1º B 2 R 
O conjunto de informações disponíveis, após a tabulação do questionário E. rama. am a - E sa É 
ou pesquisa de campo, é denominado de tabela de dados brutos e contém os 9 A F 18 1,6257,8 3 NAO M 3 3 M 12 R 
is o ; ii : I0 A F 17 1,64 58,0 2 NAO M 2 2 M 10 R 
dados da maneira que foram coletados inicialmente. Os valores obtidos para cada i A F is 172700 1 SM I 10 S- B mr 
uma dessas informações estão apresentados na Tabela 1.1. Cada uma das 12 A F 18 1,66 54,0 3 NAO M 0 2 B 0 R 
ii Poti : : 3 A F 21 1,70 580 2 NAO M 6 1 M 30 R 
características perguntadas aos alunos, tais como o peso, a idade e a altura, entre a A Ñ 19 1786851 md 5 1 A 4 N 
outras, é denominada de variável. Assim, a variável Altura assume os valores I5 A F 18 1,65 63,5 1 NAO I 4 1 B 10 R 
` : ; 4 I6 A F 19 1,63474 3 NAO P 0 1 B 18 R 
(em metros) 1,60; 1,58;... e a variável Turma assume os valores 4 ou B. 11 A F 17 1.82660 1 NAO P 3 1 B 10 N 
Claramente tais variáveis têm naturezas diferentes no que tange aos possíveis IA A M 18 1,80 85,2 2 NAO P 3 4 B 10 R 
, ja I9 A F 20 1,60 54,5 1 NAO P 3 2 B 5 R 
valores que podem assumir. Tal fato deve ser levado em conta nas análises e, para 30 A F 18 168525 3 NAO M 7 2 B 14 M 
fixar idéias, vamos considerar dois grandes tipos de variáveis: numéricas e não 2) A F 21 1,70 60,0 2 NAO P 8 2 B 5 .R 
2 as a 5 wio é 22 A F 18 1,65585 1 NAO M 0 3 B 5 R 
numéricas. As numéricas serão denominadas quantitativas, ao passo que as não Mo A F 18 1.57492 1 SIM I 5 2 B 10 R 
numéricas, qualitativas. 24 A F 20 1,55 48,0 1 SIM I 0 i M 28 R 
Mi ável é litati d rg | 25 A F 20 1,6951,6 2 NAO P 8 5 M 4 N 
variável é qualitativa quando os possíveis valores que assume I6 A F 19 1.54 57,0 2 NAO I 6 2 B 5 R 
representam atributos e/ou qualidades. Se tais variáveis têm uma ordenação d9) B F 23 1,62 63,0 2 NAO M E 2. M 5 R 
ndicando i idad d lizacã - E 20 B F 18 1,62 52,0 1 NAO P 1 1 M 10 R 
natural, indicando intensidades crescentes de realização, então elas serão 29 B F 18 1,57 49,0 2 NAO P 3 1 B 12 R 
classificadas como qualitativas ordinais. Caso contrário, quando não é possível F = E a T F A Fe Es 7 z 5 - 
estabelecer uma ordem natural entre seus valores, elas são classificadas como Mo B M 17 17173,0 1 NAO P 1 1 B 20 R 
qualitativas nominais. Variáveis tais como Turma (A ou B), Sexo (feminino ou + : r = -% = Kye i a E 5 E T z 
masculino) e Fuma (sim ou não) são variáveis qualitativas nominais. Por outro 15 B M 18 1,73 87,0 1 NAO M 7 1 B 25 B 
3 a; zdi : : 6 B F 18 1,60 47,0 1 NAO P 5 1 M M R 
lado, variáveis como Tamanho (pequeno, médio ou grande), Classe Social (baixa, a e u 17 170950 1 No P 10 5 v e 
média ou alta) são variáveis qualitativas ordinais. iA BD M 21 1,85 84,0 1 SIM I 6 4 B 10 R 
Avai cais ici É vei 4 o B E 18 1,70 60,0 1 NAO P 5 2 B 12 R 
Variáveis quantitativas, isto é, variáveis de natureza numérica, podem ser + a 18 1/73 73.0 í NAO M 1 à F 2 K 
subdivididas em discretas e contínuas. A grosso modo, variáveis quantitativas ao BD F 17 1,70 55,0 1 NAO I 5 4 B 10 B 
, q 
discretas podem ser vistas como resultantes de contagens, assumindo assim, em AD ai E A cha 
i RAG a à p ae > A B M 24 1,76 75,0 2 NAO I 7 O M 4 N 
geral, valores inteiros. De uma maneira mais formal, o conjunto dos valores 4 B F 18 1,68 55,0 1 NAO P 5 1 B 8 R 
ad à qa 5 a o a p 45 B F 18 1,55 49,0 1 NAO M 0 1 M 10 R 
assumidos é finito ou enumerável. Já as variáveis quantitativas contínuas a6 nor 19 1.70 50,0 7 NAO M 0 i B 8 R 
assumem valores em intervalos dos números reais e, geralmente, são provenientes 47 B F 19 1,55 54,5 2 NAO M 4 3 B I R 
SGA 4 E h 40 DB FP 18 1,60 50,0 1 NAO P 2 1 B 5 R 
de uma mensuração. Por exemplo, Número de Irmãos (0, 1, 2, ...) e Número de 49 no M 17 1807101 NAO P 7 O M 14 R 
Defeitos (0, 1, 2, ...) são discretas, enquanto que Peso e Altura são quantitativas 50 B M 18 1,83 86,0 1 NAO P 7 0 M 20 B 


contínuas. 
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Resumimos a classificação das variáveis no esquema apresentado na 
Figura 1.2 (a título de exercício, tente classificar todas as variáveis da Tabela 1.1). 


Nominal 


\ 


Qualitativa sata 
dl Ordinal 
Vertável a Discreta 
Quantitativa n i 
~~ Contínua 


Figura 1.2: Classificação de variáveis. 


Vale ressaltar que, em muitas situações práticas, a classificação depende 
de certas particularidades. Por exemplo, a variável Idade, medida em número de 
anos, pode ser vista como discreta, entretanto, se levarmos em conta os dias, não é 
absurdo falar que a idade é 2,5 ou 2,85 anos, dando assim respaldo para classificá- 
la como contínua. Por outro lado, dependendo da precisão do instrumento 
utilizado para se obter medidas em um objeto, podemos ter limitações no número 
de casas decimais e uma variável de mensuração pode se "tornar" discreta. É 
importante salientar que a classificação apresentada acima se refere à natureza da 
variável e, em geral, devemos utilizar o bom senso na hora de decidir qual 
procedimento adotar para caracterizar uma variável. Para salientar tal fato, 
mencionamos que podemos, inclusive, discretizar uma variável contínua para 
obter uma melhor representação da ocorrência de seus valores no conjunto de 
dados. 

Outro ponto que pode trazer confusão é que, muitas vezes, na utilização 
de programas computacionais, associamos códigos numéricos a uma variável 
qualitativa. Por exemplo na Tabela 1.1, pode-se associar ao sexo feminino o valor 
| e ao masculino 2. Apesar da variável ser representada por valores numéricos, 
isso não a torna uma variável quantitativa. Novamente, vemos que a natureza da 
variável deve sempre ser levada em conta na hora de se interpretar resultados 
obtidos na análise descritiva. l 
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Apesar de conter muita informação, a tabela de dados brutos pode não ser 
prática para respondermos às questões de interesse. Por exemplo, da Tabela 1.1 
não é imediato dizer se os alunos se incomodam muito ou pouco com os 
fumantes. Portanto, a partir da tabela de dados brutos, vamos construir uma nova 
tabela com as informações resumidas, para cada variável. Essa tabela será 
denominada de tabela de fregiiência e, como o nome indica, conterá os valores da 
variável e suas respectivas contagens, as quais são denominadas fregiiências 
absolutas ou simplesmente, fregiiências. No caso de variáveis qualitativas ou 
quantitativas discretas, a tabela de frequência consiste em listar os valores 
possíveis da variável, numéricos ou não e fazer a contagem na tabela de dados . 
brutos do número de suas ocorrências. Representaremos por n; a frequência do, 
valor i e por n a frequência total. Para efeito de comparação com outros grupos 
ou conjuntos de dados, será conveniente acrescentarmos uma coluna na tabela de 
freqiiência contendo o cálculo da fregiiência relativa, definida por f; = ni [nè 
Convém notar que, quando estivermos comparando dois grupos com relação às 
freqiiências de ocorrência dos valores de uma dada variável, grupos com um 
número total de dados maior tendem a ter maiores frequências de ocorrência dos 
valores da variável. Desta forma, o uso da fregiiência relativa vem resolver este 
problema. 

A Tabela 1.2 apresenta as frequências para a variável Sexo, obtida a partir 
da Tabela 1.1. 


Tabela 1.2: Tabela de fregiiência para a variável Sexo. 


Note que, para variáveis cujos valores possuem ordenação natural 
(qualitativas ordinais e quantitativas em geral), faz sentido incluirmos também 
uma coluna contendo as fregiiências acumuladas fac. A frequência acumulada até" 
um certo valor é obtida pela soma das freqüências de todos os valores da variável, 
menores ou iguais ao valor considerado. Sua utilidade principal é ajudar a 
estabelecer pontos de corte com uma determinada frequência nos valores da 
variável. Por exemplo, na Tabela 1.3, observamos que 90% dos alunos têm idades 
até 21 anos, de fato até 22, uma vez que este valor tem fregiiência zero. 
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Tabela 1.3: Tabela de fregiiência para a variável Idade. 


Di [9 fons fois] 
Dar f s [0,06 [0.90] 
E o (o [090] 
CERMAK 
Coa [ne 1 | | 


Com relação à variável Peso, lembremos que foi classificada como 
quantitativa contínua e assim, teoricamente, seus valores podem ser qualquer 
número real num certo intervalo. Aqui os valores variam entre 44,0 e 95,0 kg e 
foram medidos com apenas uma casa decimal. Ainda assim, existe um grande 
número de valores diferentes de modo que, se a tabela de frequência fosse feita 
nos mesmos moldes dos casos anteriores, obteríamos praticamente os valores 
originais da tabela de dados brutos. A alternativa que vamos adotar consiste em 
construir classes ou faixas de valores e contar o número de ocorrências em cada 
faixa. Para a variável Peso, usamos faixas de amplitude 10, iniciando em 40 kg. 
Na Tabela 1.4, escolhemos incluir o extremo inferior e excluir o superior. Dessa 
forma, a fregiiência da faixa 40,0 |— 50,0 não incluiu os alunos 46 e 48 que 
tinham peso igual a 50,0 kg. A opção de qual extremo incluir pode ser arbitrária, 
mas o importante é indicar claramente quais são os valores que estão sendo 
contados em cada faixa. 

Apesar de não adotarmos nenhuma regra formal quanto ao total de faixas, 
utilizamos, em geral, de 5 a 8 faixas com mesma amplitude. Entretanto, 
ressaltamos que faixas de tamanho desigual podem ser convenientes para 
representar valores nas extremidades da tabela. 
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Tabela 1.4: Tabela de fregiiência para a variável Peso. 


ro a A 
o0 soo [8 [0100,16 
o0 00 [22[0,44 [0,60 
Coo 00 | 8 [010076 
00 s00 [6 [012/0588 
[900 F- 100,0) 

DO 


90,0 — 100,0 0,02 | 1,00 


ca foja 


Vamos estudar, agora, a situação em que a variável é por natureza 
discreta, mas o conjunto de possíveis valores é muito grande. Por exemplo, a 
variável TV, definida como o número de horas assistindo televisão, tem valores 
inteiros entre O e 30 e uma tabela representando seus valores e respectivas 
fregiiências seria muito extensa e pouco prática. O caminho adequado, nesse caso, 
é tratar a variável como se fosse contínua e criar faixas para representar seus 
valores. Assim, passamos a tratar como contínua uma variável que seria, 
originalmente, classificada como discreta. 


Tabela 1.5: Tabela de fregiiência para a variável TV. 


iai [of IT 


À organização dos dados em tabelas de fregiiência proporciona um meio 
eficaz de estudo do comportamento de características de interesse. Muitas vezes, a 
informação contida nas tabelas pode ser mais facilmente visualizada através de 
gráficos. Meios de comunicação apresentam, diariamente, gráficos das mais 
variadas formas para auxiliar na apresentação das informações. Órgãos públicos e 
empresas se municiam de gráficos e tabelas em documentos internos e relatórios 


Di Di 
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de atividades e desempenho. Graças à proliferação de recursos gráficos, cuja 
construção tem sido cada vez mais simplificada em programas computacionais, 
existe hoje uma infinidade de tipos de gráficos que podem ser utilizados. Como 
ilustração deste ponto, apresentamos na Figura 1.3 alguns gráficos publicados em 
órgãos de imprensa. 


CRÉDITO RURAL 


“EVOLUÇÃO DO LUCRO LÍQUIDO 
US$ MILHÕES 425% 


RECURSOS PRÓPRIOS 


MINI-PEQUENO 
PRODUTOR 
52,3% 


h fi | 
M (in 
h At Ta A my 4 4 
EM a M 
AEE MA diana Nº DE CONTRATOS EM SER = 22.101 
ORES ATUALIZADOS NOS MOLDES DA CORREÇÃO INTEGRAL 


— RECURSOS HUMANOS 
DISTRIBUIÇÃO POR NÍVEL HIERÁRQUICO 


: j» 

NÍVEL 

GERENCIAL 1 
3107 SONDA MIMI E. ee 


1) 
ADMINISTR. 
7.845 A 


ESCRIT 


RECURSOS HUMANOS 
DISTRIBUIÇÃO POR ESCOLARIDADE 


À 


81 


x 
S 


Q 
A 
É 


Superior 


Figura 1.3: Exemplos de gráficos publicados na imprensa. 


Deve ser notado, entretanto, que a utilização de recursos visuais na 
criação de gráficos deve ser feita cuidadosamente, um gráfico desproporcional em 
suas medidas pode dar falsa impressão de desempenho e conduzir a conclusões 
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equivocadas. Obviamente, questões de manipulação incorreta da informação 
podem ocorrer em qualquer área e não cabe culpar a Estatística. O uso e a 
divulgação ética e criteriosa de dados devem ser pré-requisitos indispensáveis e 
inegociáveis. 

Vamos definir três tipos básicos de gráficos: disco ou pizza, barras e. 
histograma. Como dissemos, a criatividade na apresentação gráfica pode ser 
imensa e os gráficos que discutiremos sintetizam três caminhos, entre vários, de 
representação. 

O gráfico de disco, ou pizza, ou ainda diagrama circular, se adapta muito 
bem às variáveis qualitativas nominais. Consiste em repartir um disco em setores 
circulares ' correspondentes às porcentagens de cada valor, calculadas 
multiplicando-se por 100 a frequência relativa f;. Por exemplo, 0,20 de fregiência 
relativa corresponde a 20% uma vez que 100 x 0,20 = 20. A Figura 1.4 apresenta 
o diagrama de disco para a variável Toler, obtida a partir da Tabela 1.1. Note que 
a fatia correspondente à categoria "indiferente" foi destacada. 


Figura 1.4: Diagrama circular para a variável Toler. 


O gráfico de barras utiliza o plano cartesiano com os valores da variáve 
no eixo das abcissas e as freguências ou porcentagens no eixo das ordenadas. 
Note que para cada valor da variável desenha-se uma barra com altura 
correspondendo à sua freqiiência ou porcentagem. Esse tipo de gráfico se adapta 
melhor às variáveis discretas ou qualitativas ordinais. 
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Figura 1.5: Gráfico de barras para a variável Idade. 


O histograma consiste em retângulos contíguos com base nas faixas de 
valores da variável e com área igual à frequência relativa da respectiva faixa. 
Dessa forma, a altura de cada retângulo é denominada densidade de fregiiência ou 
simplesmente densidade definida pelo quociente da área pela amplitude da faixa. 
Para a variável peso, as densidades de cada faixa podem ser obtidas dividindo-se a 
coluna f; da Tabela 1.4 por 10, que é a amplitude de cada faixa. O histograma 
correspondente a essa variável é apresentado na Figura 1.6. Note que incluímos, 
no topo de cada retângulo, a porcentagem de observações correspondente, para 

facilitar a interpretação. 

É importante ressaltar que alguns autores utilizam a Fregiiência absoluta 
ou porcentagem na construção do histograma. Preferimos o uso da densidade de 
fregiiência, pois ela faz com que o histograma não fique distorcido, quando 
amplitudes diferentes são utilizadas nas faixas. Uma outra vantagem diz respeito à 
relação entre histograma e gráfico da função densidade de probabilidade, que será 
visto mais adiante. 

O histograma também pode ser utilizado no cálculo da mediana (mdops), 
que é o valor da variável que divide o conjunto de dados ordenados em dois 
subgrupos de mesmo tamanho, Isto é, das observações ordenadas, 50% estão 
abaixo e 50% estão acima da mediana. Assumindo que as observações da variável 
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em cada faixa são homogeneamente distribuídas, para um mesmo retângulo, fatias 
de mesmo tamanho contém uma mesma porcentagem de observações. Apesar da 
suposição de homogeneidade não ser sempre verificada, ela é bastante razoável 
em muitas situações e pode ser uma boa aproximação da realidade. 


Densidade 
o 
o 
Fac) 


0,02 


0,01 


0,0 


Peso 


Figura 1.6: Histograma para a variável Peso. 


ixemplo 1.1: Vamos calcular a mediana da variável Peso através do histograma, 
Inicialmente identificamos o retângulo que deve conter a mediana. Uma simples 
soma das áreas resulta que a mediana pertence ao intervalo [50,0; 60,0), uma vez 
que até o valor 60,0 temos acumuladas 60% das observações. Dentro dessa faixa, 
precisamos determinar um retângulo com área igual a 34%, que é o que falta para 
atingir o valor 50%. A situação é ilustrada na figura a seguir, cujo retângulo 
procurado está marcado com área mais escura. 
Com uso de proporções, estabelecemos a seguinte igualdade: 


mdobs— 50 _ 60—50 "° 
0,34 0,44 


0,05 


Densidade 


0,04 
0,03 
0,02 
0,01 


0,0 


mdb 


Daí segue que mdobs = 57,73 kg. 


O conceito de mediana, que será considerado em detalhes no Capítulo 4, 
pode ser generalizado para situações em que o conjunto de dados é dividido em 
mais do que dois subgrupos. Um caso importante é aquele em que dividimos o 
conjunto em quatro subgrupos. Para tanto, deveremos determinar, além da 
mediana, dois valores tais que 25% das observações ordenadas estarão abaixo de 
um deles e 75% estarão abaixo do outro. Tais valores são denominados, 
respectivamente, primeiro quartil e terceiro quartil, usualmente representados 
por Q1 e Q3. Note que a mediana, discutida anteriormente, representa o segundo 
quartil. O cálculo dos valores dos quartis também pode ser feito através do 
histograma, conforme mostrado no exemplo a seguir. 


Exemplo 1.2: No Exemplo 1.1, o valor da mediana (segundo quartil) calculado 
através do histograma, é 57,73 kg. De forma semelhante, vemos que o valor do 
primeiro quartil também se encontra no intervalo [50,0; 60,0), isto é, 
corresponderá ao valor Qı que determinará uma área de 9% no retângulo 
correspondente. Assim, temos (ver figura a seguir) 


Qı -50 60—50 


BA es ee = 52,05 kg. 
0,09 ga 7 Or m ong 
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0,05 


0,04 


2 
Q 
% 


Densidade 


0,02 


0,01 


0,0 


De forma semelhante, obtemos para o terceiro quartil Q3 = 69,38 kg. m 


Para o cálculo de quartis e medianas usando a tabela de dados brutos, 
precisamos ordenar as observações e escolher os valores que dividem os dados 
nas proporções desejadas. Eventualmente, será necessário tomar médias de 
valores vizinhos. No caso de tabelas de frequências, os dados já estão ordenados e 
o procedimento é similar. | 

Uma representação gráfica envolvendo os quartis é o box-plot. Definimos 
uma "caixa" com o nível superior dado pelo terceiro quartil e o nível inferior pelo 
primeiro quartil. A mediana é representada por um traço no interior da caixa e 
segmentos de reta são colocados da caixa até os valores máximo e mínimo, que 
não sejam observações discrepantes (o critério para decidir se uma observação é 
discrepante não será discutido aqui, mas, em geral, envolve a diferença entre o 
terceiro e o primeiro quartis). O próximo exemplo ilustra a construção do box-plot 
para uma variável quantitativa discreta utilizando-se os dados brutos. 


Exemplo 1.3: Suponha que um produtor de laranjas costuma guardar as frutas em 
caixas e está interessado em estudar o número de laranjas por caixa. Após um dia 
de colheita, 20 caixas foram contadas. Os resultados brutos, após a ordenação, 
são: 22, 29, 33, 35, 35, 37, 38, 43, 43, 44, 48, 48, 52, 53, 55, 57, 61, 62, 67 e 69. 
Para esses dados, temos que mdops = (102º + 119) /2 = (44+48)/2 = 46, 
Analogamente, obtemos Q; = 36 e Q3-= 56. Também observamos que o número 
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Gráficos tipo box-plot também são úteis para detectar, descritivamente, 
diferenças nos comportamentos de grupos de variáveis. Por exemplo, podemos 
considerar gráficos da variável Peso para cada sexo. O resultado é apresentado na 
Figura 1.9, em que podemos notar que os homens apresentam peso mediano 
superior ao das mulheres, além de uma maior variabilidade. 


mínimo de laranjas em uma caixa é 22 e o número máximo, 69. O box-plot 
correspondente é apresentado na Figura 1.7. 
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Figura 1.7. Box-plot para o número de laranjas por caixa. Figura 1.9: Box-plot da variável Peso para cada sexo. 


A representação gráfica através do box-plot é bastante rica no sentido de 
informar, entre outras coisas, a variabilidade e simetria dos dados. Note que na 
Figura 1.7 os dados apresentam simetria acentuada (a distância da mediana para 
os quartis é a mesma), o mesmo podendo ser observado a respeito da distância dos 
pontos de mínimo e máximo em relação à mediana. Em contraste, temos na Figura 
1.8 0 box-plot para a variável Peso, que apresenta uma pequena assimetria. 


Exercícios da Seção 1.2: 


l, Classifique cada uma das variáveis abaixo em qualitativa (nominal / ordinal) ou 
quantitativa (discreta / contínua): 
i Ocorrência de hipertensão pré-natal em grávidas com mais de 35 anos (sim 
ou não são possíveis respostas para esta variável). 9/44 MOVA padre DES 
b, Intenção de voto para presidente (possíveis respostas são os nomes dos 
candidatos, além de não sei). Gol mimo 
e, Perda de peso de maratonistas na Corrida de São Silvestre, em quilos. YM ab 
d, Intensidade da perda de peso de maratonistas na Corrida de São Silve 
(leve, moderada, forte). o oM IWO yu 
ë, Orau de satisfação da população brasileira com relação ao trabalho de seu 
presidente (valores de O a 5, com O indicando totalmente insatisfeito e 5 
totalmente satisfeito). Gug domo, 


Peso 
= 
=] 


E pese 


40 3, Quinze pacientes de uma clínica de ortopedia foram entrevistados quanto ao 


j á número de meses istos de fisioterapia, $ a 
Figura 1.8: Box-plot para a variável Peso. meses previstos de fisioterapia, se haverá (S) ou não (N) sequelas 
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após o tratamento e o grau de complexidade da cirurgia realizada: alto (A), 
médio (M) ou baixo (B). Os dados são apresentados na tabela abaixo: 


[Psentes [TJ [S JE KAENLA LAENA 
[Fisoterapia [7 [8 [5 [E [a[s[7[7[c[s [o(s [5 [4/5 
[Crorgia [ATM[A [MIM[BJAJM[B[M[BI[B[MIMIA, 
a. Classifique cada uma das variáveis. 
b. Para cada variável, construa a tabela de frequência e faça uma representação 
gráfica. 
c. Para o grupo de pacientes que não ficaram com seqüelas, faça um gráfico de 
barras para a variável Fisioterapia. Você acha que essa variável se comporta 
de modo diferente nesse grupo? 


3. Os dados abaixo referem-se ao salário (em salários mínimos) de 20 
funcionários administrativos em uma indústria. 


a. Construa uma tabela de frequência agrupando os dados em intervalos de 


amplitude 2 a partir de 1. 
b. Construa o histograma e calcule o 1º e o 3º quartil. 


4. Um grupo de estudantes do ensino médio foi submetido a um teste de 


matemática resultando em: 


a. Construa o histograma. 

b. Se a nota mínima para aprovação é 5, qual será a porcentagem de 
aprovação? 

c. Obtenha o box-plot. 


5. Um estudo pretende verificar se o problema da- desnutrição em adultos medida 
pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior 
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do que em uma região industrial (Região B). Para tanto, uma amostra foi 
tomada em cada região, fornecendo a tabela de fregiiências a seguir: 


Região A Região B 
[< [8] 


MELIEI s 
319 


a. Os dados apresentados sugerem que o grau de desnutrição é diferente nas 
duas regiões? (Note que o total de observações difere em cada região). 

b. Construa, a partir dos dados das tabelas, um histograma para cada região, 
Faça uma suposição conveniente para as faixas não delimitadas. 

c. Com base nos histogramas apresentados em (b), obtenha as medidas 
necessárias e construa o box-plot, um para cada região. Com base nessa 
representação gráfica, rediscuta o item (a). 


1.3 O Uso de Computadores em Estatística 


Foi mencionado anteriormente que o desenvolvimento da indústria de 
computadores deu grande impulso ao uso da Estatística. Vários programas 
computacionais de uso comum contém rotinas estatísticas incorporadas às suas 
funções básicas. É o caso das planilhas eletrônicas, usualmente pré-instaladas em 
computadores novos. Programas especificamente desenvolvidos para efetuar 
análises estatísticas são conhecidos como pacotes estatísticos. Existe um número 
considerável desses pacotes, alguns voltados para análises mais comuns na área 
de humanidades, outros para a área de biomédicas; alguns são extremamente 
simples de se utilizar através de menus, outros pressupõem conhecimento de uma 
linguagem de programação específica. Qualquer que seja o programa a ser 
utilizado, três são as etapas que envolvem seu uso: 

1. Entrada de Dados 
2. Execução da Análise Estatística 
3. Interpretação de Resultados 


A Entrada de Dados deve assumir certas convenções. Apesar de certos 
programas terem rotinas desenvolvidas de forma a simplificar a criação do banco 
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de dados, intrinsecamente o que se tem é a criação de uma matriz, em que cada 
linha corresponde a uma unidade experimental e cada coluna a uma variável. 

Por unidade experimental, entende-se o elemento da população ou 
amostra no qual observaremos as variáveis. Por exemplo, na Tabela 1.1, 
observamos 50 unidades experimentais, os estudantes, nos quais foram 
observadas 14 variáveis. Assim, os dados podem ser representados por uma 
matriz com dimensão 50 por 14. Leitores familiares com planilhas eletrônicas 
não terão problema em visualizar esta situação. Assim, quando estudamos uma 
única variável, consideramos a coluna correspondente. Se estamos interessados 
em saber o comportamento desta variável em dois grupos diferentes (como na 
Figura 1.9), precisamos estudar os valores da coluna em que ela se encontra, 
conjuntamente com a coluna que contém a informação dos grupos. 

A fase da execução da análise estatística pressupõe o conhecimento de 
como o programa que está sendo utilizado trabalha as informações. Torna-se, 
assim, importante se ter acesso ao manual do programa. 

Após as informações terem sido trabalhadas, vem a fase da interpretação 
dos resultados obtidos. Nesta hora, é aconselhável consultar o manual sempre que 
houver dúvida, se o que foi calculado relaciona-se, de fato, à análise estatística 
desejada. Ao interpretar as características observadas, é importante verificar se 
resultados absurdos não estão ocorrendo. Em caso positivo, releia o manual e 
certifique-se de ter executado a análise correta para os dados em questão. Em 
muitos casos, a fase de interpretação é a mais difícil e interessante, pois envolve o 
equacionamento das características apresentadas na análise com vistas a 
responder as questões inicialmente colocadas. 


Exercícios da Seção 1.3: 


1. Utilizando alguma planilha eletrônica ou pacote estatístico disponível e com as 
informações da Tabela 1.1, construa um banco de dados para os 20 indivíduos 
iniciais e as 4 primeiras colunas. Imprima e confira os valores digitados. 


2. Considerando o banco de dados criado no Exercício 1 desta seção, construa 
histogramas para as quatro variáveis e, baseado no gráfico, descreva os seus 
comportamentos. 


3. Considerando o banco de dados criado no Exercício 1 desta seção, divida a 
idade em três categorias (menores de 18 anos, idade entre 18 e 21 inclusive, e 
maiores de 21 anos). Construa gráficos de barra para essa variável, incluindo 
todos os indivíduos e um para cada sexo. Interprete os resultados obtidos. 
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1.4 Exercícios 


1. Responda certo ou errado, justificando: 
a. Suponha duas amostras colhidas de uma mesma população, sendo uma de 
tamanho 100 e outra de tamanho 200. Então, a amostra de tamanho maior é 
mais representativa da população. t 
b. Duas variáveis diferentes podem apresentar histogramas idênticos. \ 
c. Duas variáveis com box-plot iguais não podem ter valores diferentes. } 


2. Suponha que duas empresas desejam empregá-lo e após considerar as 
vantagens de cada uma, você vai escolher aquela que lhe pagar melhor. Após 
certa pesquisa, você consegue a distribuição de salário das empresas, dadas 
segundo os gráficos abaixo. 


Empresa A Empresa B 


densidade 
densidade 


5 10 15 20 25 30 35 40 45 50 0 to 20 30 40 50 60 70 
— ABaláfios Mínimos Salários Mínimos 


Com base nas informações de cada gráfico, qual seria sua decisão? 


3. Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo 
indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre 
ônibus, metro e trem, o número de diferentes meios de transporte utilizados foi 
o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 
1,2 e3, 

a. Organize uma tabela de freqüência. 

b. Faça uma representação gráfica. 

c. Admitindo que essa amostra represente. bem o comportamento do usuário 
paulistano, você acha que a porcentagem dos usuários que utilizam mais de 
um tipo de transporte é grande? 


4. A idade dos 20 ingressantes num certo ano no curso de pós-graduação em 
jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 
24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. 
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a. Apresente os dados em uma tabela de fregiiência, incluindo a fregiiência 
relativa. 

b. Idades atípicas parecem ter ocorrido nesse ano. Após sua retirada do 
conjunto de dados, refaça o item (a). Comente as diferenças encontradas. 


5. Um novo medicamento para cicatrização está sendo testado e um experimento é 
feito para estudar o tempo (em dias) de completo fechamento em cortes 
provenientes de cirurgia. Uma amostra em trinta cobaias forneceu os valores: 
15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 
17, 15, 16, 14, 18, 18, 16, 15 e 14. 

a. Organize uma tabela de fregiiência. 

b. Que porcentagem das observações estão abaixo de 16 dias? 

c. Classifique como rápida as cicatrizações iguais ou inferiores a 15 dias e 
como lenta as demais. Faça um diagrama circular indicando as 
porcentagens para cada classificação. 


6. O Posto de Saúde de um certo bairro mantém um arquivo com o número de 
crianças nas famílias que se utilizam do Posto. Os dados são os seguintes: 3, 4, 
345 1,6,3,4,5,5/4,3, 845,5 5,4, 5,6, 11,10,2,1,2,3, 1,522, 

a. Organize uma tabela de fregiiência. 
b. Faça uma representação gráfica. 
c. Você identifica valores muito discrepantes? Que fazer com eles? 


7. Um questionário foi aplicado aos dez funcionários do setor de contabilidade de 
uma empresa fornecendo os dados apresentados na tabela. 


Funcionário Idade Anos de Empresa 


10 | fundamental | 26 

a. Classifique cada uma das variáveis. 

b. Faça uma representação gráfica para a variável Curso. 

c. Discuta a melhor forma de construir a tabela de frequência para a variável 
Idade. Construa uma representação gráfica. 


7 
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d. Repita o item (c) para a variável Salário. 
e. Considerando apenas os funcionários com mais de três anos de casa, 
descreva o comportamento da variável Salário. 


8. Um grupo de pedagogos estuda a influência da troca de escolas no desempenho 
de alunos do ensino fundamental. Como parte do levantamento realizado, foi 
anotado o número de escolas cursadas pelos alunos participantes do estudo, 


DS [5 
5 


4 
N 


n. Qual é a porcentagem dos alunos que cursaram mais de uma escola? 

b. Construa o gráfico de barras. 

e. Classifique os alunos em dois grupos segundo a rotatividade: alta para 
alunos com mais de 2 escolas e baixa para os demais. Obtenha a tabela de 
frequência dessa variável. 


4, Alunos da Escola de Educação Física foram submetidos a um teste de 
resistência quanto ao número de quilômetros que conseguiram correr sem 
parar, Os dados estão apresentados a seguir. 

f. Qual é a variável em estudo? 
b. Construa o histograma. 
& Obtenha o box-plot. 


10, O tempo de utilização de caixas eletrônicos depende de cada usuário e das 
operações efetuadas. Foram coletadas 26 medidas desse tempo (em minutos): 
E 
LI [IT [Lo pia fia [2 [ro fos fis [is [iai] 
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a. Organize uma tabela de fregiiência sem agrupar os dados. 

b. Agrupe os dados em faixas de tamanho 0,2 a partir de 0,8 e obtenha uma 
nova tabela de frequência. 

c. Compare as tabelas obtidas em (a) e (b). Comente as diferenças. 

d. Se ao invés de 26 medidas tivéssemos 1000, qual procedimento, dentre 
agrupar ou não, você utilizaria? 


11. Vinte e uma pacientes de uma clínica médica tiveram o seu nível de potássio 
no plasma medido. Os resultados foram os seguintes: 


EEE 
RE 


3,15 = 3,35 
3,35 H 3,65 
a. Construa o histograma. 


b. Determine os 1°, 2° e 3º quartis. 
c. Qual a porcentagem dos valores que estão acima do nível 3? 


12. Foram feitas medidas ém operários da construção civil a respeito da taxa de 
hemoglobina no sangue (em gramas/cm”): 


a. Organize os dados em faixas de tamanho 1 a partir do 11. 

b. Construa o histograma. 

c. Determine o terceiro quartil e a mediana. 

d. Taxas abaixo de 12 ou acima de 16 são consideradas alteradas e requerem 
acompanhamento médico. Obtenha a tabela de frequência da variável 
Acompanhamento Médico com duas opções sim ou não. 


13. O valor médio de comercialização da saca de milho de 60 quilos na Bolsa de 
Cereais é apresentado abaixo, em reais, para últimos 40 meses. 
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n. Organize os dados em faixas de tamanho 0,4 a partir de 6. 
b. Construa o histograma. 
e. Calcule o segundo quartil. 


14, O número de gols marcados no último campeonato da Federação Paulista de - 
Futebol pelos 20 clubes participantes nos seus 38 jogos é uma variável com os 
seguintes valores: 


cuei J2 [3 J4 |s Je [7 Js Jo m] 


[Gois [55 [70 [42 [41 [68 [66 [7a [29 [ar [53] 


n Classifique a variável. Você acha razoável construir uma tabela de 
freqüência de acordo com a classificação dada? 

b, Construa uma tabela de frequência agrupando as observações em intervalos 
de comprimento 10 a partir de 20 (não esqueça de indicar claramente os 
intervalos). 

& Obtenha o histograma. 

d. Que porcentagem dos clubes marcaram mais de 38 gols? 


18, A tabela a seguir apresenta as frequências relativas de ocorrências de faixas de 
altura (em cm) para uma amostra de 100 crianças de 12 anos de idade. 

f Construa o histograma. 

b, Obtenha o box-plor. 

«, Descjando-se separar os 15% mais altos, qual seria o ponto de corte? 
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Faixas 
100 10 
1105130 
120 5150 
130 TÃO 
140 160 


16. O índice de germinação é um dos principais fatores para definir a qualidade 
das sementes. Ele é determinado em experimento científico conduzido pelo 
fabricante e regulamentado pelo órgãos fiscalizadores. Um fabricante afirma 
que o índice de germinação de suas sementes de milho é de 85%. Para verificar 
tal afirmação, uma cooperativa de agricultores sorteou 100 amostras com 100 
sementes em cada uma e anotou a porcentagem de germinação em cada 
amostra. 


ors | 8 | 


a. Faça uma representação gráfica da tabela acima. 
b. Construa o box-plot. 
c. Comente a afirmação do fabricante. 


17. Uma nova ração foi fornecida a suínos recém desmamados e deseja-se avaliar 
sua eficiência. A ração tradicional dava um ganho de peso ao redor de 3,5 kg 
em um mês. A seguir, apresentamos os dados referentes ao ganho, em quilos, 
para essa nova ração, aplicada durante um mês em 200 animais nas condições 
acima. 

a. Construa o histograma. 
b. Determine o 1º, 2º e 3º quartis. 
c. Você acha que a nova ração é mais eficiente que a tradicional? Justifique. 
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HC 


Bocs] a 


I8, Num estudo sobre rotatividade de mão-de-obra na indústria, anotou-se o 
número de empregos nos últimos 3 anos para operários especializados e não 
especializados. 

a. Construa o diagrama de barra correspondente a cada tabela usando a 
porcentagem no eixo das ordenadas. 

b, Junte as informações das duas tabelas em uma só e obtenha um diagrama de 
barras da rotatividade de mão de obra na .indústria (sem diferenciar a 
especialização). 

€. Você acha que os trabalhadores especializados trocam menos de emprego? 
Justifique. 

Não Especializados Especializados 

| 

; 

E 

total 1122 


19, Como parte de uma avaliação médica em uma certa universidade, foi medida 
4 frequência cardíaca dos alunos do primeiro ano. Os dados são apresentados 
em seguida, 

t Obtenha o histograma. 

b, Hreqliências cardíacas que estejam abaixo de 62 ou acima de 92 requerem 
acompanhamento médico. Qual é a porcentagem de alunos nessas 
condições? 

& Uma freqiiência ao redor de 72 batidas por minuto é considerada padrão. 
Você acha que de modo geral esses alunos se encaixam nesse caso? 


H 


[No] 
N 


p 
A 


N| CO 
N| OO 
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20. Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de 
português e 40 de matemática. Para os 20 melhores classificados, 
apresentamos o número de acertos em cada disciplina, em ordem decrescente 
do total de pontos. 

a. Organize uma tabela de freqüência para cada variável. 

b. Faça uma representação gráfica das tabelas obtidas em (a). 

c. Construa a tabela de freqüência da variável total de pontos. 

d. Comente sobre a afirmação: os aprovados são melhores em português do 
que em matemática. 


amo |as a ee o o 


[Poruguês | 23 | 12 |11 | 20 [17[12[14[20[ 8 [10] 
21. Vinte baterias para automóveis de uma certa marca foram testadas quanto à 
sua vida útil. O teste simula a utilização da bateria, acelerando seu desgaste de 
modo a criar uma réplica da situação real. Os resultados da durabilidade (em 
meses) são apresentados a seguir: 
a. Construa o histograma. 
b.Se a amostra acima for considerada representativa do desempenho dessa 
marca de bateria, quantas, em 1000 fabricadas, serão repostas pelo 
fabricante, se ele oferece 6 meses de garantia? 
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& Se o fabricante vende cada bateria por 20% acima do preço de custo, em 
1000 baterias fabricadas, descontadas as que repõe, quanto será seu lucro 
por bateria em função do preço de custo? 


Durabilidade | frequência relativa 


42, Descja-se comparar três técnicas cirúrgicas para a extração de dente de siso. 
Cada uma das técnicas foi aplicada em 20 pacientes e os resultados são 
apresentados a seguir. 


i = 


o o 


Tempo de recuperação (dias) 
N 


6 
5 
4 
A B c 
Técnica cirúrgica 
t Encontre valores aproximados para a mediana de cada técnica. 


WO intervalo interquartil é definido como a diferença entre o terceiro e o 
primeiro quartis. Calcule seu valor para cada uma das técnicas e comente. 

€ Discuta a variabilidade do tempo de recuperação em cada técnica. 

il; Se você é otimista, qual técnica escolheria? 

44, (Use o computador) Os dados a seguir representam indivíduos que foram 


contaminados pelo veneno de um certo tipo de inseto e submetidos a 
tratamento (três diferentes tipos). As variáveis são: 
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No.: número associado aos pacientes; 

Idade: idade do paciente no momento de admissão, em anos; 

Diag: tempo, em horas, gasto entre o contato com o inseto e 
administração do tratamento; 

Recup: tempo, em horas, entre a administração do tratamento e 
recuperação; o 

Tratam: tipo do tratamento administrado; 

Coag: presença de coágulos no momento de admissão. 


Idade | Diag | Recup | Tratam 
ELI [IT [não 
Tão 
[sim 


Ee 

ER 

Pes ei 

To 

a E E | r | 
LS 

Ou 

po | 

NEM 


ps 
ana 
p 
(9$) 
asla- 
O 
H 
B 
=| 


e s [S [5 [Mm fio | 


td Exercícios 33 


a. Através do computador, crie uma planilha com os dados apresentados. 
Bascando-se nesta planilha: 

i. Classifique cada uma das variáveis. 

ii. Construa uma tabela de frequência (através do computador) para a 

variável Diag. Utilize 5 classes. 

iii. Através de representação gráfica adequada, compare os três tratamentos 
com relação à idade dos pacientes. Você diria que a idade se distribui 
homogeneamente nos três tratamentos? 

iv. Repita o item (iii) para a variável Coag. 

b, Suponha, que ao invés de trabalhar com a variável Idade, cria-se uma nova 
variável denominada Etário, assumindo valor O se Idade for menor que 29 
unos e | caso contrário. Utilizando o computador: 
|, Explique como você poderia criar tal variável. 

dl, Construa um box-plot para a variável Recup, para cada grupo de Etário, 
Com base nos gráficos, você diria que o tempo de recuperação é diferente 
dependendo da faixa etária? Justifique sua resposta. 

& Uma nova variável denominada Cura é criada: Cura será rápida se Recup 
for menor ou igual a 10, será normal se entre 10 e 40 (inclusive) e será lenta 
para Recup acima de 40. Verifique, graficamente, se pacientes em cada uma 
das categorias de Cura apresentam diferenças no que se refere ao tempo 
entre o contato com o inseto e a administração do tratamento. 


Os arquivos de dados mencionados nos exercícios a seguir podem ser obtidos em 
Wa lme. usp.br/~noproest 


34, (Use o computador) Os itens seguintes referem-se aos dados contidos no 
arquivo de nome cancer.txt. Esse arquivo contém os dados de uma pesquisa 
sobre incidência de câncer e é apresentado em 9 colunas representando as 
seguintes variáveis de interesse: 


coluna l: identificação do paciente. 
coluna 2: diagnóstico: 
I = falso-negativo: diagnosticados como não tendo a doença quando 
na verdade a tinham. 
2 = negativo: diagnosticados como não tendo a doença quando de 
fato não a tinham. 
3 = positivo: diagnosticados corretamente como tendo a doença. 
4 = falso-positivo: diagnosticados como tendo a doença quando na 
verdade não tinham. 
coluna 3: idade, 


coluna 4: espectro químico da análise do sangue-alkaliine phosphatose (AKP). 
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coluna 5: concentração de fosfato no sangue (P). 
coluna 6: enzima, lactate dehydrogenase (LDH). 
coluna 7: albumina (ALB). 

coluna 8: nitrogênio na uréia (N). 

coluna 9: glicose (GL). 


a. Escolha 3 variáveis dentre as colunas 2 a 9. Classifique-as e faça o 
histograma e a tabela de freqüência para cada uma delas (se necessário, crie 
até cinco faixas). 

b. Uma afirmação feita por alguns médicos é a de que o grupo dos falso- 
positivos é mais jovem do que o dos falso-negativos. Para os dados dessa 

` pesquisa, o que você diria a respeito? Justifique sua resposta baseando-se 


em gráficos e tabelas de freqüência. 


25. (Use o computador) Um empreendimento imobiliário consistiu da construção 
“de dois edifícios residenciais, com apartamentos de 1 dormitório e área útil de 
53 m?. Em uma primeira fase, foi construído apenas um edifício, denominado 
“Bloco A”. Para a conclusão do Bloco B houve uma troca de empreiteiras. 
Suspeita-se que seus apartamentos foram construídos com metragem diferente 
daquela especificada na escritura. O arquivo areas.txt contêm as seguintes 


variáveis, obtidas por peritos de uma firma independente: 


a. Explore o arquivo de dados. Qual o número total de apartamentos no 


Jd: 
Bloco: 
Andar: 
Final: 
Sala: 
Cozinha: 


Banheiro: 


Dorm: 
Rachad: 
Infiltr: 


identificação | da observação no arquivo 

bloco a que pertence o apartamento 

andar onde o apartamento está situado 

número identificando a posição do apto. no andar 
área da sala, em m? 

área da cozinha, em m? 
área do banheiro, em m 
área do dormitório, em m? 
ocorrência de rachaduras no apto: O - não, 1- sim 
ocorrência de infiltrações no apto: O - não, 1 - sim 


2 


empreendimento? Quantos apartamentos existem por prédio? E por andar? 


b. Construa tabelas de fregiiência para cada uma das variáveis quantitativas 


contínuas e faça gráficos adequados. 


c. Repita o item (b), para cada bloco, separadamente. Construa gráficos do tipo 


box-plot e compare as áreas para cada cômodo considerado. 
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d, Calcule a área útil total para cada apartamento. Armazene esta informação 
em uma variável denominada Total. Repita os itens (b) e (c) para a variável 


è, Baseando-se nos itens anteriores, você diria que existem diferenças nas áreas 
dos apartamentos dos blocos A e B? Em caso positivo, queda cômodo(s) 
npresenta(m) o problema? 

f, Explore descritivamente os dados referentes a problemas estruturais 
(rachaduras e infiltrações). Com a informação contida na variável Andar 
divida os apartamentos em três categorias dependendo do andar onde se 
encontra: baixo, médio e alto. Estude a ocorrência de rachaduras e 
infiltrações para cada categoria. 


d6, (Use o computador) Os itens seguintes referem-se aos dados contidos no 


coluna 1: 
coluna 2: 
coluna 3: 


coluna 4: 


coluna 5: 


coluna 6: 
coluna 7; 


Número do questionário (Num). 
Comunidade (Comun). 

Sexo (Sexo): 

1 = masculino; 

2 = feminino, 

Faixas de idade, em anos (Idade): 


1 = (14,25); 
Dim [25,35); 
3 = [35,45); 
4 = [45,00). 
Estado civil (Ecivil). 
| = solteiro; 


2 = casado; 

3 = divorciado; 

4 = viúvo; 

5 = outro. 

Região de procedência (Reproce). 


Tempo de residência em São Paulo, em anos (Temposp). 
coluna 8; Número de residentes na casa (Resid), 


nrquivo de nome aeusp.txt, que contém parte dos dados de uma pesquisa, 
rentizada pela Associação dos Educadores da USP (AEUSP), sobre aspectos 
aúcio-econômicos e culturais de comunidades de baixa renda da região do 
Hutantã, São Paulo. O questionário foi respondido por um dos moradores da 
onan sorteada para participar da pesquisa. Os dados estão organizados da 
seguinte forma: 
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coluna 9: Trabalho (Trab): 
= sim; 

2 = não; 

3 = aposentado. 
coluna 10: Tipo de trabalho, só para os que trabalham (Ttrab) : 

1 = empregado com carteira; 

2 = empregado sem carteira; 

3 = profissional liberal; 

4 = autônomo; 

5 = rural. 
coluna 11: Idade que começou a trabalhar, em anos (Itrab). 
coluna 12: Renda familiar em faixas de reais (Renda): 


1 = [0, 150); 
2 = [150, 300); 
3 = [300, 450); 

-4 = [450, 900); 
5 = [900, 1500); 
6 = [1500, 00). 

coluna 13: Acesso a computador (Acompu): 
= sim; 

2 = não. 


coluna 14: Série em que parou de estudar (Serief). 
Branco = não parou de estudar; 
la8 = séries do ensino fundamental; 
9a 12 = séries do ensino médio. 


a. Explore o conjunto de dados e classifique as variáveis. Verifique se existem 
variáveis com valores incompatíveis ou inválidos e proponha alternativas 
para a solução do problema. Observe que existem variáveis com respostas 
em branco e discuta porque isso acontece. 

b. Estude a variável Renda em função de Comun. Você diria que os moradores 
da Cohab e do Jardim d'Abril têm a mesma renda? Justifique sua resposta 
baseando-se em gráficos e tabelas de frequência. 

c. Verifique se o comportamento da variável Temposp é influenciado pelo tipo 
de trabalho (variável Ttrab). - 

d. Faça um box-plot para a variável Itrab. 


Capítulo 2 


Probabilidades 


2,1 Introdução 


No capítulo anterior, vimos como caracterizar uma massa de dados, com o 
etivo de organizar e resumir informações. Neste capítulo, apresentamos a 
ria matemática que dá a base teórica para o desenvolvimento de técnicas 
atutísticas a serem apresentadas no restante do livro. 
Denominamos fenômeno aleatório à situação ou acontecimento cujos 
idos não podem ser previstos com certeza. Por exemplo, as condições 
tmáticas do próximo domingo não podem ser estabelecidas com total acerto, O 
amo pode ser dito da taxa de inflação do próximo mês. Veremos que, em 
funções como essas, modelos podem ser estabelecidos para quantificar as 
fozas das diversas ocorrências. 
Apresentamos, a seguir, alguns conceitos de teoria dos conjuntos, que 
lo usados neste capítulo. Chamamos de espaço amostral ao conjunto de todos - 
ultados possíveis de um certo fenômeno aleatório. Ele será representado 
ela letra grega Q (ômega). Os subconjuntos de Q são denominados eventos è 
ipresentados pelas letras latinas maiúsculas A, B,.... O conjunto vazio, como já 
feadicional, será denotado por (). 
A união de dois eventos A e B, denotada por AU B, representa a 
prrência de, pelo menos, um dos eventos A ou B. A intersecção do evento A 
mim A, denotada por AN B, é a ocorrência simultânea de A e B. 
Dois eventos 4 e B são disjuntos ou mutuamente exclusivos quando não 
M elementos em comum. Isto é, AN B =. 
Dizemos que A e B são complementares se sua união é o espaço amostral 
E ua intersecção é vazia. O complementar de A será representado por A“ e temos 
MAUA sNecAanA =). 
r Vamos considerar probabilidade como sendo uma função P(:) que 
atribui valores numéricos aos eventos do espaço amostral, conforme a definição a 


Repulr, 


4 


37 


38 Capítulo 2: Probabilidades 


Definição 2.1: Probabilidade 
Uma função P(:) é denominada probabilidade se satisfaz as condições: 


)O<P(A)<XLVACO; 
ii) P(Q) = 1; 


iii) P(LJA;) = > P(A), com os A; disjuntos. 
j=1 j=1 
o 


A pergunta que poderia surgir seria: como atribuir probabilidades aos 
elementos do espaço amostral? Há duas maneiras principais de responder essa 
questão. 

A primeira delas consiste na atribuição de probabilidades, baseando-se 
em características teóricas da realização do fenômeno. Por exemplo, ao lançarmos 
um dado, temos o espaço amostral Q = (1,2,3,4,5,6). Admitindo que o dado 
foi construído de forma homogênea e com medidas rigorosamente simétricas, não 
temos nenhuma razão para privilegiar essa ou aquela face. Assim, consideramos 
P(1) = P(2) = em = P(6) = 1/6. 

Uma outra maneira de obter probabilidades é através das freqüências de 
ocorrências. Observando as diversas repetições do fenômeno em que ocorre a 
variável de interesse, podemos anotar o número de ocorrências de cada valor 
dessa variável. Para um número grande de realizações, a fregiiência relativa 
poderia ser usada como probabilidade. Por exemplo, desejando estabelecer as 
probabilidades de cada face de um dado sem fazer nenhuma suposição inicial 
sobre sua construção, usamos a experiência de sucessivas ocorrências. O ponto 
delicado é decidir quanta experiência é necessária para se fazer a atribuição de 
probabilidades, com alguma garantia de não se estar muito distante do verdadeiro 
valor. Questões dessa natureza não serão discutidas aqui e fazem parte dos 
capítulos de inferência estatística. Por ora, vamos assumir que, à medida que o 
número de repetições vai aumentando, as frequências relativas se estabilizam em 
um número que chamaremos de probabilidade. Em ciências biológicas e humanas, 
essa é a forma mais comum de atribuir probabilidades. 

De modo geral, diremos que estamos fazendo um sorteio aleatório ou ao 
acaso em uma população, se a escolha desse ou daquele elemento só depende da 
probabilidade a ele atribuída, seja através da fregiiência relativa ou de alguma 
suposição teórica. 


Exemplo 2.1: Para a variável Idade, ver Tabela 1.3 do Capítulo 1, o espaço 
amostral será Q = (17,18,...,25). Supondo que um aluno é escolhido ao acaso 
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Ressa população, definimos a probabilidade dele ter uma certa idade pela 
frequência relativa associada à respectiva idade. Assim, 


P(17) = 0,18; PUB) = 0,44; ...; P(25) = 0,04. m 
No próximo exemplo, obtemos a probabilidade da união de eventos. 


Exemplo 2.2: Considere a Tabela 1.2 do Capítulo 1, contendo informações a 
fespeito das freqüências da variável Sexo. Sabendo que 52% dos alunos estão na 
“uma A c 48% na turma B, suponha que escolhemos um estudante ao acaso da 
população. Qual seria a probabilidade de escolhermos um estudante do sexo 
minino ou alguém da turma B? 

Das informações a respeito da fregiência relativa acima e da Tabela 1.2, 


vein 
P(E) = 0,74, P(M) = 0,26, P(A) = 0,52, P(B) = 0,48. 


é probabilidade que precisamos determinar pode ser representada por P(F U B). 
foto que se simplesmente somarmos P(F) com P(B), obtemos uma soma 
i eror n |, Evidentemente isso não pode acontecer, pois o valor da 
ababilidade pode ser, no máximo, igual a 1. Não é difícil perceber que estamos 
Bmmando alguns elementos duas vezes, pois ao considerarmos apenas estudantes 
B Hexo feminino, temos estudantes da turma A bem como da turma B e ao 

pelderarmos apenas a turma B, temos estudantes do sexo feminino e masculino, 
asim, ON estudantes do sexo feminino e da turma B, isto é, o evento F N B, está 
eluído no evento F e também no evento B. Logo, precisamos subtrair uma vez 
Fr l) para obter a probabilidade correta. Desta forma, temos que a 
ababilidade da união FU B é igual à soma das probabilidades de F e B menos 
pobabilidade da intersecção F N B. m 


A probabilidade da união de eventos é calculada através da regra da 
Wipo de probabilidades apresentada na Figura 2.1. Não faremos uma 
monstração formal, pois acreditamos que o resultado é bastante simples e 
ii Hitivo 


Sejam A e B eventos de Q, Então 
P(AUB) = P(A) + P(B) - P(AN B). 


Figura 2.1: Regra de adição de probabilidades. 
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Observe ques, se A e B forem disjuntos, a expressão acima se reduz à 
soma das probabiliclades dos eventos A e B, pois a intersecção é vazia e a 
correspondente probabilidade é nula. A regra de adição de probabilidades pode 
ainda ser expandida! para mais de dois eventos. Tente, por exemplo, escrever a 
expressão para P(AU BUC) eras D = BUC e aplicando a regra de 
adição de probabilidades duas vezes. 

Como conseqüência da regra da adição, obtemos que, para qualquer 
evento AC Q, 


PIA =1= PA) 


que pode ser verifiicada aplicando a regra da adição com Aº no lugar de B. 
Temos, 


P(AU A?) = P(A) + P(A?) — P(AN 4°) 


Como P(A U Aº) = P(Q) = 1, segue imediatamente a igualdade desejada. 


Exercícios da Seção 2.1: 


I. Para cada um dos casos abaixo, escreva O espaço amostral correspondente e 
conte seus elementos. 

a. Uma moeda é lançada duas vezes e observam-se as faces Jods. 

b. Um dado é lançado duas vezes e a ocorrência de face par ou ímpar é 
observada. 

e. Uma urna contém 10 bolas azuis e 10 vermelhas com dimensões 
rigorosamente: iguais. Três bolas são selecionadas ao acaso com reposição e 
as cores são amotadas. 

d. Dois dados são lançados simultaneamente e estamos interessados na soma 
das faces observadas. 

ec: Em uma cidade, famílias com 3 crianças são selecionadas ao acaso, 
anotando-se o sexo de cada uma. 

f. Uma máquina produz 20 peças por hora, escolhe-se um instante qualquer e 
observa-se o número de defeituosas na próxima hora. 

g. Uma moeda é lançada consecutivamente até o aparecimento da primeira 
cara. 
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. Sendo A e B dois eventos em um mesmo espaço amostral, "traduza" para a 
linguagem da Teoria dos Conjuntos, as seguintes situações» 
a. Pelo menos um dos eventos ocorre. 
b. O evento A ocorre mas B não. 
c. Nenhum deles ocorre. 
d. Exatamente um dos eventos ocorre. 


ts 


3. Uma universidade tem 10 mil alunos dos quais 4 mil são considerados 
esportistas. Temos, ainda, que 500 alunos são do curso de biologia diurno, 700 
da biologia noturno, 100 são esportistas e da biologia diurno e 200 são 
esportistas e da biologia noturno. Um aluno é escolhido, ao acaso, e pergunta- 
se a probabilidade de: 

a. Ser esportista. 

b. Ser esportista e aluno da biologia noturno. 
c. Não ser da biologia. 

d. Ser esportista ou aluno da biologia. 

c. Não ser esportista, nem aluno da biologia. 


4. Sejam A e B dois eventos em um dado espaço amostral, tais que P(A) =0,2, 
P(B) = p, P(AU B) = 0,5 e P(AN B) = 0,1. Determine o valor de p. 


5. Dois processadores tipos A e B são colocados em teste por 50 mil horas. A 
Area de que um erro de cálculo aconteça em um processador do tipo 
é de 1/30, no tipo B, 1/80 e, em ambos, 1/1000. Qual a maia de Spa 
a. “gera menos um dos processadores tenha apresentado erro? A 
b. Nenhum processador tenha apresentado erro? 1 
€. Apenas o processador A tenha apresentado erro? 


2.2 Probabilidade Condicional e Independência 


Em muitas situações práticas, o fenômeno aleatório com o qual 
trabalhamos pode ser separado em etapas. A informação do que ocorreu em uma 
determinada etapa pode influenciar nas probabilidades de ocorrências das etapas 
sucessivas. 

Nestes casos, dizemos que ganhamos informação e podemos "recalcular" 
us probabilidades de interesse. Essas probabilidades "recalculadas" recebem o 
nome de probabilidade condicional, cuja definição apresentamos a seguir. 
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Definição 2.2: Probabilidade condicional 


Dados dois eventos 4 e B, a probabilidade condicional de A dado que 
ocorreu B é representada por P(A | B) e dada por 


P(ANB) 


, P(B) > À. 
Caso P(B)=0, P(A | B) pode ser definido arbitrariamente; neste texto 
usaremos P(A | B) = P(A). 0 


Exemplo 2.3: Considere a seguinte situação hipotética. Uma grande região de 100' 
km? contém um aqüífero (reservatório de água) subterrâneo com área igual a 2 

km?, cuja localização é desconhecida (ver figura a seguir). A fim de determinar a 

posição do aqiiífero, perfurações são feitas ao acaso. Vamos representar por H o 

evento de encontrar água. Temos P(H) = 0,02, obtido pelo quociente da área do 

agiiífero pela área total, onde usamos que o espaço amostral é Q = (região de 100 

km?}. 


H,O Q = Região (100 km?) 


Suponha agora que, após uma ano de pesquisas, uma área de cerca de 20 
km? já foi amplamente perfurada sem encontrar água e pode ser descartada para 
novos furos. Representamos essa informação por I. Qual seria, agora, a 
probabilidade de um furo, feito ao acaso, atingir o aqüífero? Vamos representar 
por P(H | I) a probabilidade desejada. Com a mesma argumentação utilizada 
acima, a nova região de procura terá área 80 km? e portanto P(H | I) = 0,025. 
Isto é, como esperávamos, a probabilidade de obter água aumentou devido à 
informação recebida. Vamos refazer esse cálculo utilizando agora a fórmula de 
probabilidade condicional. Para tal, seja B a nova região de procura 
correspondendo a área total inicial menos a parte que foi descartada para novas 
tentativas. Temos que P(B) = 0,8. O evento H N B representa a ocorrência de, 
sem nenhuma informação auxiliar, encontrarmos água num furo feito na região B. 
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Pelas suposições iniciais, HNB=H e então, P(HNB) = P(H) = 0,02. 
Então, 


P(HNB) 0,02 


À figura, a seguir, apresenta o efeito da informação 1 no espaço amostral. 


Q = Região (100 km?) 


Q’ = Nova Região (80 km?) 


É) espaço amostral perdeu 20 km?, que é a área descartada para novos furos. O 


Da definição de probabilidade condicional, deduzimos a regra do produto 
de probabilidades, uma relação bastante útil que é apresentada na Figura 2.2, 


Sejam À e B eventos de Q. E 


( 


Figura 2.2: Regra do produto de probabilidades. 


Um conceito muito importante em probabilidade é o da independência de 
eventos, que será utilizado repetidamente ao longo de todo o texto. 
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Definição 2.3: Independência de eventos 


Dois eventos 4 e B são independentes, se a informação da ocorrência ou 
não de B não altera a probabilidade da ocorrência de A. Isto é, 


P(A | B) = P(A); P(B) > 0, 
ou ainda a seguinte forma equivalente: 


P(A N B) = P(A) P(B). | o 


Não é difícil verificar que se A é independente de B, então B é 
independente de A. O uso da expressão acima permite, ainda, verificar que o 
evento vazio é independente de qualquer evento. As demonstrações são deixadas 
a cargo do leitor. 

É muito comum, à primeira vista, confundir eventos independentes e 
eventos disjuntos. O próximo exemplo ajuda a esclarecer essa questão. 


Exemplo 2.4: Uma empresa produz peças em duas máquinas 7 e TT, que podem 
apresentar desajustes com probabilidade 0,05 e 0,10; respectivamente. No início 


do dia de operação um teste é realizado e, caso a máquina esteja fora de ajuste, ela 


ficará sem operar nesse dia passando por revisão técnica. Para cumprir o nível 
mínimo de produção pelo menos uma das máquinas deve operar. Você diria que a 
empresa corre o risco de não cumprir com suas metas de produção”? 

Seja O; o evento da máquina i estar operando, à = 1, 2. Pelas informações 
disponíveis temos P(O1) = 0,95 e P(O5) = 0,90. ` 

Na Figura 2.3, apresentamos um diagrama conhecido como árvore de 
probabilidades, que consiste em representar os eventos e as probabilidades 
condicionais associadas às realizações. Cada um dos caminhos da árvore indica 
uma possível ocorrência. 

No preenchimento dos valores de probabilidades na árvore, observe que 
assumimos a independência entre O; e Os, pois acreditamos que a eventual falta 
de ajuste em uma máquina não interfere no comportamento da outra. Note que, no 
caso de independência, o segundo ramo da árvore não é afetado pela ocorrência 
dos eventos que aparecem no primeiro ramo. Portanto, pela definição de 
independência, segue que P(Os | O1) = P(O05) = 0,90. 

Para facilitar a notação, vamos escrever 010 para o evento O, N Os. 
Sua probabilidade da ocorrência é dada pelo produto dos ramos que levam nesse 
evento. Isto correspondendo à aplicação da regra do produto de probabilidades: 


P(0,05) = P(O» | O1) P(01). 
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0,90 
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0,95 
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> j 0, 
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O, 
0,10 c 
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Figura 2.3: Árvore de probabilidades.. 


A tabela a seguir resume as ocorrências e suas respectivas probabilidades. 


Para obter o nível mínimo de produção diária, precisamos ter pelo menos 
máquina operando. Isto corresponde à ocorrência do evento 
100,0; UOfO,.Temos, 


P(0,0, U 0,0; VOLO,) = P(0,05) + P(0,0º) + P(OSO,), 


ME qm três realizações são disjuntas. Por exemplo, não é possível as duas 


inas estarem operando (evento O,0,) e ao mesmo tempo só a máquina 7 
He (evento 0/09). Dessa forma, concluímos que a probabilidade de manter o 


| al minimo de produção é 0,995. Portanto, a empresa tem alta probabilidade de 


Flr com suas metas de produção. o 


No exemplo anterior, os eventos representados pelas intersecções 


a OOj, O'O, e OOF formam novos eventos que têm a propriedade de 
Am Müluamente exclusivos e cuja união contempla todas as possíveis 
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combinações. Eventos que satisfaçam essas duas características têm importante 
papel no cálculo de probabilidades e, assim, merecem destaque. 


Definição 2.4: Partição do espaço amostral 


Os eventos C1,C5,...,Cy formam uma partição do espaço amostral, se 
eles não têm intersecção entre si e se sua união é igual ao espaço amostral. Isto é, 


k 
CiNnC;=0 para i£j e UG =. o 


A Figura 2.4 apresenta um exemplo de uma partição com 6 eventos. 


Figura 2.4: Partição do espaço amostral (k=6). 


Exemplo 2.5: Suponha que um fabricante de sorvetes recebe 20% de todo o leite 
que utiliza de uma fazenda F3, 30% de uma outra fazenda F e 50% de F3. Um 
órgão de fiscalização inspecionou as fazendas de surpresa e observou que 20 % do 
leite produzido por F} estava adulterado por adição de água, enquanto que para 
F, e F3, essa proporção era de 5% e 2%, respectivamente. Na indústria de 
sorvetes os galões de leite são armazenados em um refrigerador sem identificação 
das fazendas. Para um galão escolhido ao acaso, vamos analisar o leite para 
decidir sobre sua adulteração ou não. 


Se denotarmos por 4 o evento "o leite está adulterado", temos que 
P(A|F)=0,20, P(A | Fz) = 0,05 e P(A | F3) = 0,02. Além disso, F}, F} e 
F3 formam uma partição do espaço amostral pois uma dada amostra de leite vem, 
necessariamente, de uma e apenas uma das três fazendas. Desta forma, o evento A 
pode ser escrito em termos de intersecções de Acom os eventos Fi, Fz e F3, 
conforme ilustra a figura a seguir. | 


P(C; | 4) = 


>= 


1 


= 


P(C; | A) = 


P(A|C; 
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A=(ANF)U(ANF)U (ANE) 


peemos, ninda, estar interessados em saber qual a probabilidade de que a amostra 
ilterada tenha sido obtida do leite fornecido pela fazenda F}, isto é, P(F1| 4), 
He implica em se inverter a probabilidade condicional conhecida P(A|F1). 
Des como essa são típicas para o uso do resultado apresentado a seguir. O 


ñ de Bayes: Suponha que os eventos C4,65,...,Ck formem uma 
lição do 42 e que suas probabilidades sejam conhecidas. Suponha, ainda, que 
A um evento A, se conheçam as probabilidades P(A | C;) para todo 
E 1,2,,,,,h. Então, para qualquer j, 


P(A | Cj) P(C;) 


j=L,2,...,k. 
)P(C;) 


emonstração: Da definição de probabilidade condicional temos 


P(C;N A) 
P(A) 


` 


Aumerador dessa expressão pode ser reescrito pela regra do produto, 


tetonado à C;, isto é, 
P(C; N A) = P(AN C;) = P(A | C)P(C;). 


completar a demonstração note que 


“1 


PCM OND = Pl imo) 


Ao, ki E \ 
Plro BI). POAN- NG) 


Exemplo 2.6: Voltando à situação do fabricante de sorvetes (exemplo anterior), 


podemos agora calcular facilmente a probabilidade desejada, isto é, 


P(A | A) = DEDA 
o PRA | PYP (E) 
“PA|F)P(E)+P(A | F)P(Fo) + P(A | F3)P(F;)? 


e, então 
0,2 x 0,2 


BRÁS E 
md 0,2 x 0,2 + 0,3 x 0,05 + 0,5 x 0,02 


= 0,615. 


Portanto, a probabilidade de que a amostra de leite em questão tenha sido. 
produzida pela fazenda F} é de 0,615 em contraste com as probabilidades 0,231 e 


m 


0,154 para as fazendas Fs e F3, respectivamente. 


Exercícios da Seção 2.2: 


1. 
P(B) = 0,5. Calcule: 


a. P(AN B). 

b.P(AUB). À 
ce P(A] B). (4 

d. P(4°). 

e. P( (AU B)?). 


de: 
a. A e B serem mutuamente exclusivos. — 

. d 
b. Ae B serem independentes. 


p 


Es 


do sexo masculino. Entre estes, 20% nunca viram o mar, ao passo que, entre as 
meninas, essa porcentagem é de 50%. Qual a probabilidade de que um aluno 
selecionado ao acaso seja: 

a. Do sexo masculino e nunca tenha visto o mar? 

b. Do sexo feminino ou nunca tenha visto o mar? 


.SeP(B)=0,4; P(A) = 0,7 e P(A N B) = 0,3; calcule P(A | B'). 


-p Pla hw de Hora um 
Capítulo 2: Probabilidades 


Considere dois eventos 4 e B, mutuamente exclusivos, com P(A) = 0,3 € 


.Se P(AUB)=0,8;P(A) = 0,5e P(B) = x, determine o valor de x no caso 


. Uma escola do ensino médio do interior de São Paulo tem 40% de estudantes 


N 
\ 


pegen B -e P ( (BUB)) 
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4 ai E pe z3 x a 
mente n afirmação: se dois eventos são mutuamente exclusivos então eles 
são independentes. 


do Paulo Futebol Clube ganha com probabilidade 0,7 se chove e com 0,8 se | 
] phove, Em Setembro a probabilidade de chuva é de 0,3. O São Paulo 
Mom uma partida em Setembro, qual a probabilidade de ter chovido nesse 


e B são independentes então 4º e B° também são 


xercícios 


moeda é viciada de modo que a probabilidade de sair cara é 4 vezes maior 
m de sair coroa. Para 2 lançamentos independentes dessa moeda, 
inar: 

E eapaço amostral. 

A probabilidade de sair somente uma cara. 

probabilidade de sair pelo menos uma cara. 

probabilidade de dois resultados iguais. 


patdero um conjunto de 4 números dos quais nenhum deles é zero, dois são 
ilyos e dois são negativos. Sorteamos ao acaso, com reposição, 2 números 
vonjunto, Determine a probabilidade de: 

Him deles ser negativo. 

E quociente ser negativo. 

da dois números terem o mesmo sinal. 


fique se são válidas as afirmações: 

BE P(A) = 1/3 e P(B | A) = 3/5 então A e B não podem ser disjuntos. 
Me P(A) = 1/2,P(B | A) = 1 e P(A | B) = 1/2 então A não pode estar 
contido em B. 


ma classe de estatística teve a seguinte distribuição das notas finais: 4 do sexo 
arulino e 6 do feminino foram reprovados, 8 do sexo masculino e 14 do 
nto foram aprovados. Para um aluno sorteado dessa classe, denote por M 
A n aluno escolhido for do sexo masculino e por A se o aluno foi aprovado, 
Ealento | 
TR(A U M"). 
BRA AM"). 
P(A | M). 
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| Em um bairro existem três empresas de TV a cabo e 20 mil residências. A 
Biipresa TA tem 2100 assinantes, a TB tem 1850 e a empresa TC tem 2600 

mesinantos, sendo que algumas residências em condomínios subscrevem aos 

Mepviços de mais de uma empresa. Assim, temos 420 residências que são 

Mesinantos de TA e TB, 120 de TA e TC, 180 de TB e TC e 30 que são 

esinantes das três empresas. Se uma residência desse bairro é sorteada ao 

emo, qual é a probabilidade de: 

Ber assinante somente da empresa TA? 

Assinar pelo menos uma delas? 

E Não ter TV a cabo? 


Jela armários guardam as bolas de voleibol e basquete. O armário 1 tem 3 
alas de voleibol e 1 de basquete, enquanto o armário 2 tem 3 bolas de 
pulelhol e 2 de basquete. Escolhendo-se, ao acaso, um armário e, em seguida, 
qu de suas bolas, calcule a probabilidade dela ser: -x 

De voleibol, sabendo-se que o armário 1 foi escolhido” 

Do basquete, sabendo-se que o armário 2 foi escolhido. 


De basquete. 


i päclentes de uma Clínica de Ginecologia com idade acima de 40 anos, 
são ou foram casadas e 40% são solteiras. Sendo solteira, a probabilidade 
ter tido um distúrbio hormonal no último ano é de 10% , enquanto que para 
E demais essa probabilidade aumenta para 30%. Pergunta-se: 

Qual a probabilidade de uma paciente escolhida ao acaso ter tido um 
distúrbio hormonal? 

e Me à paciente sorteada tiver distúrbio hormonal, qual a probabilidade de ser 
#oltelra’? 

Ha escolhemos duas pacientes ao acaso e com reposição, qual é a 
probabilidade de pelo menos uma ter o distúrbio? 


d.P(Mº | A). 

e P(M | A). 

“Peças produzidas por uma máquina são classificadas como defeituosas, 
* recuperáveis ou perfeitas com probabilidade de 0,1; 0,2 e 0,7; respectivamente. 

De um grande lote, foram sorteadas duas peças com reposição. Calcule: 

a. P(duas serem defeituosas). 

b. P(pelo menos uma ser perfeita). 

c. P(uma ser recuperável e uma perfeita). 

((. Indique as suposições utilizadas para resolver os itens anteriores. E seo 
“sorteio for sem reposição? 


6. Para dois eventos 4 e B, num mesmo espaço amostral, verifique, através de um 
diagrama, que é sempre possível escrever o evento A como sendo 
(AN B) U (AN B°) e que, portanto, vale P(A) = P(AN B) + P(AN BJ 


7. Numa cidade do interior de São Paulo, estima-se que cerca de 20% dos 
habitantes têm algum tipo de alergia. Sabe-se que 50% dos alérgicos praticam 
esporte, enquanto que essa porcentagem entre os não alérgicos é de 40%. Para 
um indivíduo escolhido aleatoriamente nessa cidade, obtenha a probabilidade 
de: 

a. Não praticar esporte. < 
b. Ser alérgico dado que não pratica esportes. 


8. As preferências de homens e mulheres por cada gênero de filme alugado em 
uma locadora de vídeos, estão apresentadas na próxima tabela. 


Mulheres 
Sorteando-se, ao acaso, uma dessas locações de vídeo, pergunta-se à 
probabilidade de: 

a. Uma mulher ter alugado um filme policial? 

b. O filme alugado ser uma comédia? 

c. Um homem ter alugado ou o filme ser um romance? 

d. O filme ser policial dado que foi alugado por um homem? 


i Vors entrega a seu amigo uma carta, destinada à sua namorada, para ser 
Bolocada no correio. Entretanto, ele pode se esquecer com probabilidade 0,1, 
He pão se esquecer, a probabilidade de que o correio extravie a carta é de 0,1, 
Finalmente, se foi enviada pelo correio a probabilidade de que a namorada não 
a peveba é de 0,1. 

h Fun namorada não recebeu a carta, qual a probabilidade de seu amigo ter 
esquecido de colocá-la no correio? 

ie Avallo as possibilidades desse namoro continuar, se a comunicação 
depender das cartas enviadas, 


/ 
A Dois dados equilibrados são lançados. Calcule a probabilidade de: 
// a. Obter o par (3, 4), sabendo-se que ocorreu face fmpar no primeiro dado. 
b. Ocorrer face ímpar no segundo dado, sabendo-se que ocorreu face par no 
primeiro dado. 


14. Numa certa região, a probabilidade de chuva em um dia qualquer de 


15. A tabela a seguir apresenta informações de alunos de uma universidade 
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Encontrar água em até duas tentativas. 
E Encontrar água. 


Hm médico desconfia que um paciente tem tumor no abdômen, pois isto 
aaie em 70% dos casos similares que tratou. Se o paciente de fato tiver o 
mor, O exame ultra-som o detectará com probabilidade 0,9. Entretanto, se ele 
W liver O tumor, o exame pode, erroneamente, indicar que tem com 

babllidade 0,1. Se o exame detectou um tumor, qual é a probabilidade do 
tente tê-lo de fato? 


primavera é de 0,1. Um meteorologista da TV acerta suas previsões em 80% 

dos dias em que chove e em 90% dos dias em que não chove. 

a. Qual é a probabilidade do meteorologista acertar sua previsão? 

b. Se houve acerto na previsão feita, qual a probabilidade de ter sido um dia de 
chuva? 


quanto às variáveis: Período, Sexo e Opinião sobre a Reforma Agrária, 
Determine a probabilidade de escolhermos: 

a. Uma pessoa do sexo masculino e sem opinião sobre a reforma agrária? 

b. Uma mulher contrária a reforma agrária? 

c. Dentre os estudantes do noturno, um que seja a favor da reforma agrária? 

d. Uma pessoa sem opinião, sabendo-se que ela é do sexo feminino? 


Sexo 
Diumo | Feminino | 2 | 8 | 2 | 

[Masculino | 8 [9 | 8 
Noturno | Feminino | 4 | 8 | 2 | 


16. Três candidatos disputam as eleições para o Governo do Estado. O candidato 

do partido de direita tem 30% da preferência eleitoral, o de centro tem 30% e o 

da esquerda 40%. Em sendo eleito, a probabilidade de dar, efetivamente, 

prioridade para Educação e Saúde é de 0,4; 0,6 e 0,9 para os candidatos de 

direita, centro e esquerda, respectivamente. 

a. Qual é a probabilidade de não ser dada prioridade a essas áreas no próximo 
governo? 

b. Se a área teve prioridade, qual a probabilidade do candidato de direita ter 
ganho a eleição? 


tabela à seguir apresenta dados dos 1000 ingressantes de uma universidade, 
i Informações sobre área de estudo e classe sócio econômica. 


Alta 
120 | 156 | 68 | 
169 | 145 


mem aluno ingressante é escolhido ao acaso, determine a probabilidade de; 
Mor da classe econômica mais alta. 

Patudar na área de exatas. 

Estudar na área de humanas, sendo de classe média. 

Bor du classe baixa, dado que estuda na área de biológicas. 


poa corta população, a probabilidade de gostar de teatro é 1/3, enquanto 
mode gostar de cinema é 1/2. Determine a probabilidade de gostar de teatro 
do de cinema, nos seguintes casos: 

Fiontar de teatro e gostar de cinema são eventos disjuntos. 

Fosti de teatro e gostar de cinema são eventos independentes. 

Pados que gostam de teatro gostam de cinema. 

A probabilidade de gostar de teatro e de cinema é 1/8. 

E Dentre os que não gostam de cinema, a probabilidade de não gostar de teatro 


EVA 


dica fabricas fornecem equipamentos de precisão para o laboratório de 
tea de uma universidade. Apesar de serem aparelhos de precisão, existe 
Mma pequena chance de subestimação ou superestimação das medidas 
Pidas, A tabela a seguir apresenta o comportamento do equipamento 
prsdisido em cada fábrica: 


Th Uma companhia que fura poços artesianos trabalha numa região escolhendo, 
“aleatoriamente, o ponto de furo. Não encontrando água nessa tentativa, sorteia 
outro local e, caso também não tenha sucesso, faz uma terceira e última 
tentativa. Admita probabilidade 0,7 de encontrar água em qualquer ponto dessa 
região. Calcule a probabilidade de: 

a. Encontrar água na segunda tentativa. 
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Suponha que X represente o número de horas de atividade física por semana. 
Considere a tabela a seguir: 


Probabilidade 0,98 0,01 


Fábrica Exata 
Probabilidade 0,005 0,98 0,015 


Feminino 
Masculino 


Fábrica II Superestima 
Probabilidade | 0,00 [0,99 | 0,01 


As fábricas I, II e II fornecem, respectivamente, 20%, 30% e 50% dos 
aparelhos utilizados. Escolhemos, ao acaso, um desses aparelhos e 
perguntamos a probabilidade de: 

a. Haver superestimação de medidas” 

b. Não haver subestimação das medidas efetuadas? 

c. Dando medidas exatas, ter sido fabricado em IM? 

d. Ter sido produzido por I, dado que não subestima as medidas? 


i Qual é a probabilidade de sortear aleatoriamente uma menina com atividade 
física semanal na faixa de [3, 5) horas? 

bi Calcule P(X > 5). 

® Calcule a probabilidade de que um rapaz escolhido aleatoriamente dedique 
pelo menos 5 horas à atividade física. Idem para uma moça. 

il; Compare as respostas dadas nos itens (b) e (c). 


À probabilidade de encontrar gás numa certa região é 1/10. Três sondas 

ldênticas estão perfurando de modo independente. 

i Sabendo-se que uma delas (qualquer) não achou gás, qual a probabilidade 
das outras duas encontrarem? 

ti, Súbendo-se que uma delas (qualquer) não achou gás, qual a probabilidade 
de encontrar gás na região através dessas perfurações? 

E, Sabendo-se que não mais de uma delas (qualquer) achou gás, qual a 
probabilidade de nenhuma encontrar gás? 


22. Acredita-se que numa certa população, 20% de seus habitantes sofrem de 
algum tipo de alergia e são classificados como alérgicos para fins de saúde 
pública. Sendo alérgico, a probabilidade de ter reação a um certo antibiótico é 
de 0,5. Para os não alérgicos essa probabilidade é de apenas 0,05. Uma pessoa 
dessa população teve reação ao ingerir o antibiótico, qual a probabilidade de: 
a. Ser do grupo não alérgico? 


b. Ser do grupo alérgico? Hajam 4, B e C pertencentes a um mesmo espaço amostral. Mostre que: 


MMA |D)=1-P(A|B). 

RAUB|O=P(A|O+P(B|C)-P(ANB|C). 

E Sel = A" então P((AUB|C)=1. 

h PIAU BUC) = P(A) + P(B)+P(C)- P(ANB)- P(ANC) 
E P(BNC)+P(ANBNO). 


23. Estatísticas dos últimos anos do departamento estadual de estradas são 
apresentadas na tabela a seguir, contendo o número de acidentes incluindo 
vítimas fatais e as condições do principal motorista envolvido, sóbrio ou 
alcoolizado. 


Não | Sim + Uma familia viaja ao litoral para passar um fim de semana. A probabilidade 

4 de congestionamento na estrada é de 0,6. Havendo congestionamento, a 

2393 | 762 probabilidade dos seus dois filhos brigarem no carro é de 0,8 e, sem 

Você diria que o fato do motorista estar ou não alcoolizado interfere na pgs sonamento, a briga poss sendo pretiabilidade BA Ruando ng, 

ocorrancià de vitimas fatais? hrign, com ou sem congestionamento, a probabilidade do pai perder a 

, paetência com os filhos é de 0,7. E claro que havendo congestionamento o pai 

24. Sejam 4 e B dois eventos de Q, tal que P(B) > 0. Mostre que: + pede perder a paciência com os filhos mesmo sem brigas, o que aconteceria 

a. Se P(A | B) = P(A) então P(ANB) = P(A)P(B). saM probabilidade 0,5. Quando não há nem congestionamento, nem briga, o 
b. Se P(AN B) = P(A)P(B) então Ae B são independentes. pal dirige tranquilo e não perde a paciência. Determine a probabilidade de: 

“a Nio ter havido congestionamento se o pai não perdeu a paciência com seus 


Filhos 
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b. Ter havido briga, dado que perdeu a paciência. 


29. Um candidato a motorista treina na auto-escola e acredita que passa no exame 


com probabilidade 0,7. Se não passar, fará mais treinamento, o que ele estima 

que lhe aumentará em 10% a probabilidade de passar, isto é, no segundo 

exame passará com 0,77 de probabilidade. 

a. Supondo que ele continue acreditando nesse aumento de possibilidade, em 
que exame será aprovado com certeza? 

b. Qual é a probabilidade de serem necessários mais de 2 exames? 


Os arquivos de dados mencionados nos exercícios a seguir podem ser obtidos em 
www.ime.usp.br/-noproest 


30. (Use o computador) Considere os dados do arquivo areas.txt descrito no 
Exercício 25, Capítulo 1. Suponha que você ganhe um apartamento em uma 


promoção feita por uma cadeia de lojas. Utilizando o computador, construa 


tabelas de fregiiência necessárias para responder às seguintes questões. 
a. Qual a probabilidade do apartamento estar situado entre os andares 4 e 7? 
b. Qual a probabilidade do apartamento estar situado no bloco B? 
c. Qual seria a probabilidade de você ganhar um apartamento com algum 
problema de construção? (Isto é, com rachaduras ou infiltrações). 
d. Repita os itens anteriores, dado que o apartamento esta situado no bloco B. 


31. (Use o computador) Considerando o arquivo cancer.txt calcule: 
a. As probabilidades de que um paciente selecionado, ao acaso, seja 
classificado em cada uma das quatro categorias da variável Diagnóstico. 
b. Utilizando apenas o item (a), qual a probabilidade de um paciente, 
selecionado ao acaso, ser diagnosticado como não tendo a doença? 


32. (Use o computador) Considere os dados do arquivo aeusp.txt descrito no 


Exercício 26, Capítulo 1. Suponha que escolhemos, ao acaso, um dos. 


moradores entrevistados. 

a. Qual a probabilidade da idade do entrevistado ser inferior a 35 anos? 

b. Dado que o morador tem menos do que 35 anos, qual é a probabilidade 
dele ser do sexo feminino? 

c. Qual seria a probabilidade de escolher um morador do Jardim Raposo que 
tenha acesso a computador? 

d. Determine a probabilidade de escolher um entrevistado que tenha vindo do 
nordeste, seja do sexo feminino e está trabalhando. Se esse morador foi 
escolhido, qual é a probabilidade dele ter carteira assinada? 


Capítulo 2: Probabilidades: 


pítulo 3 


urláveis Aleatórias Discretas 


Introdução 


Neste capítulo, incorporamos o conceito de probabilidade no estudo de 
vela associadas a características em uma população. No Capítulo 1, vimos 
A utilizando uma tabela de fregiiência, podemos apresentar os valores possíveis 
HMA dada variável e suas respectivas fregiências. Evitamos, dessa forma, 
Pinde perda de informação, a repetição, às vezes muito grande, dos valores 
atável, De forma análoga, vamos formalizar, com a ajuda da Teoria das 
bilidades, o comportamento de variáveis na população, associando a cada 
el valor sua probabilidade de ocorrência. Como já mencionamos no 
lo anterior, além da probabilidade poder ser obtida a partir do estudo das 
Anel, ela também pode ser deduzida a partir de suposições feitas a respeito 
lação do fenômeno. Na formalização que faremos com a introdução de 
Hidades, nos ocuparemos apenas das variáveis quantitativas. Vamos 
pude entro Os casos discreto e contínuo, pois a atribuição de probabilidades 
[erento em cada situação. As variáveis qualitativas podem ser, em algumas 
Wa é com o devido cuidado, tratadas como discretas na atribuição de 
bilidades, 

Uma quantidade X, associada a cada possível resultado do espaço 
[o denominada de variável aleatória discreta, se assume valores num 
qto enumerável, com certa probabilidade. Por outro lado, será denominada 
| aleatória contínua, se seu conjunto de valores é qualquer intervalo dos 
e penis, O que seria um conjunto não enumerável. 

Como já mencionamos anteriormente, existem variáveis que são 
Halinente definidas como discretas ou contínuas, porém essa atribuição não é 
lila e depende do instrumento de medida e do estudo que está sendo feito. 
Memplo, a variável número de filhos em famílias é discreta, enquanto o 
Mpo do reação a um certo medicamento é contínua. A discussão sobre 
elhicação de variáveis, feita no Capítulo 1, será utilizada em todo o texto e a 
fa alentória é acrescida aqui para indicar que, a cada possível valor, 
dimos uma probabilidade de ocorrência. No caso discreto, a atribuição é 


Erd 
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similar à tabela de fregiiência; já no caso contínuo, utilizaremos um 
generalização da idéia de histograma. 
Neste capítulo apresentamos os resultados e modelos mais comuns pari 
variáveis aleatórias discretas, deixando para o Capítulo 6 a discussão do caso 
contínuo. 
Seja X um variável aleatória discreta e x1,4x9,%3,...,seus diferente 


(1) = 0,20. De forma semelhante, temos que P(N = 1) = 0,30 e 
Bv) 0,35. Para completar a caracterização probabilística a variável 
wia N, falta obter as probabilidades P(N = 3), P(N = 4) e P(N = 5). 
aulo as informações fornecidas, elas são iguais e, digamos, têm valor p. 
Tando a definição de função discreta de probabilidade, temos que: 


valores. P(N=0+P(N=D++P(N=5)=1 
0,20 + 0,30+0,35+p+p+p =1 


0,85+3p=1 
0,15 
p= 


Definição 3.1: Função discreta de probabilidade 


A função que atribui a cada valor da variável aleatória sua probabilidad 
é denominada de função discreta de probabilidade ou, simplesmente, função di 
probabilidade. A notação a ser utilizada é: 
Prev =p) p =h: i função de probabilidade para N é dada pela tabela a seguir: 
0 1 DR 4 5 O 
0,20 0,30 0,35 0,05 0,05 0,05 


ou ainda, 


X T1. g By, 
ai sq n fo 1,2; Na construção de um certo prédio, as fundações devem atingir 15, 
de profundidade e, para cada 5 metros de estacas colocadas, o operador 

se houve alteração no ritmo de perfuração previamente estabelecido. Essa 

dão é resultado de mudanças para mais ou para menos, na resistência do 

m Nos dois casos, medidas corretivas serão necessárias, encarecendo o 

da obra. Com base em avaliações geológicas, admite-se que a probabilidade 

porência de alterações é de 0,1 para cada 5 metros. O custo básico inicial é 

JO UPCs (unidade padrão de construção) e será acrescido de 50k, com k 

sentando o número de alterações observadas. Como se comporta a variável 

Has obras de fundação? 

Assumimos que as alterações ocorrem independentemente entre cada um 

Hima Intervalos de 5 metros e representamos por 4 a ocorrência de alteração 

pao intervalo, sendo Aº seu complementar. A Figura 3.1 apresenta as três 

e com os possíveis resultados da perfuração. Cada etapa tem duas 

lidades que, quando combinadas com as outras duas etapas, originam 8 

veta eventos, Por exemplo, o evento AA A representa que, na primeira e na 


Uma função de probabilidade satisfaz 0 < p; < 1e > p; = 1. 


Note que, m maioria dos casos, X terá apenas um número finito d 
valores possíveis e, asim, a verificação de que a soma de probabilidades é igual. 
1 será feita através deuma soma finita. As variáveis aleatórias são completamen 
caracterizadas pela sua função de probabilidade e uma parte importante 
Estatística é, justamente, obter, para uma dada variável de interesse, a função d 
probabilidade que melhor represente seu comportamento na população. 


Exemplo 3.1: Com dados do último censo, a assistente social de um Centro d 
Saúde constatou que para as famílias da região, 20% não têm filhos, 30% têm 
filho, 35% têm doise as restantes se dividem igualmente entre três, quatro € 
cinco filhos. Suponha que uma família será escolhida, aleatoriamente, nesi 
região e o número de filhos averiguado. Definimos M como sendo a variáve 
aleatória número defilhos e consideramos que a escolha é feita entre as diversi 
opções de valores para N. Isto é, não importa qual a família escolhida, mas apen Sha etapas, aconteceram alterações, enquanto que na segunda nada se alterou. 
qual é a resposta dada quanto ao número de filhos. Desse modo, estame o temos 9 etapas, com 2 possibilidades em cada uma, temos no total 2º = 8 
sorteando um valor de N dentre 0, 1, 2, 3, 4 ou 5. A função de probabilidade desm Bijna 
variável segue das informações disponíveis, isto é, como 20% das famílias n 
têm filhos, então a probabilidade de uma família sorteada ao acaso não ter filhos 


O espaço amostral consiste na união de todos os caminhos que levam de 
ponto n outro da árvore de probabilidades. 
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0,1 


0,9 


0,9 


c 
A 0,1 


0,9 A” 
0,9 
Figura 3.1: Árvore de probabilidades- alterações no subsolo. 


Sendo C a variável aleatória custo da obra, obtemos a seguinte tabela: 


01x 0,9 
AAA 


Note que associamos a cada evento do espaço amostral um valor para a 
variável aleatória C. Os distintos possíveis valores são cı = 100, c% = 150, 
c3 = 200 e c4 = 250. Além disso, podemos ter um mesmo valor da variável 
associado a mais de um elemento do espaço amostral, por exemplo, 


P(C = c) = P(C = 150) = P(AAASU ACAACU AAA). 


Tendo em vista que os eventos são disjuntos, a probabilidade da união fica sendo 
simplesmente a soma das probabilidades de cada evento. Então, 
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P(C = 150) = P(AACAS) + P(ACAAS) + P(ACACA) 
= 3 x 0,1 x 0,9? = 0,243. 


% probabilidades para os outros valores de C podem ser obtidas de modo 
iálogo, resultando na seguinte função de probabilidade: 


C| 100 150 200 250 
p; [0,729 0,243 0,027 0,001 


densa forma, o comportamento da variável de interesse pode ser estudado através 
M Associação de cada custo com sua probabilidade de ocorrência. Essa 
formação pode auxiliar na previsão de gastos e na elaboração de orçamentos. O 


Vamos considerar agora exemplos em que as probabilidades associadas 
ja elementos do espaço amostral são obtidas a partir de uma suposição teórica. 


amplo 3.3: Considere o experimento de lançar uma certa moeda é observar se 
pro cara ou coroa. Descreva o comportamento da variável número de caras em 
Hls lançamentos dessa moeda. 
Se denotamos por N a variável de interesse, segue imediatamente que N 
pile assumir os valores 0, 1 ou 2. Para atribuir probabilidades a cada um desses 
Nlores, é necessário fazer alguma suposição a respeito da probabilidade de 
Eorrência de cara ou coroa. Admitindo que a moeda é equilibrada, as 
pobabilidades de cada face serão iguais, isto é, P(cara) = P(coroa) = 1/2. 
pomos ainda a independência entre lançamentos, de modo que a ocorrência de 
Mä determinada face no primeiro lançamento não altere a probabilidade de cara 
BU Coroa no segundo lançamento. 
Podemos considerar como espaço amostral o seguinte conjunto: 


. N=(CC,CR,RC,RR), 


POM Cc 1 representando a ocorrência de cara e coroa, respectivamente. 

Para deduzir a função de probabilidade de N, observe que o valor 1 
Beare nos eventos CR e RC, enquanto que os valores O e 2 têm apenas um 
evento a eles associado, respectivamente, RR e CC. Segue então que as 
probabilidades associadas aos valores de N são as seguintes: 


N|/o 1/2 
pi [1/4 1/2 1/4 


0 
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Exemplo 3.4: Um jogador paga 5 fichas para participar de um jogo de dados, 
disputando com a banca quem tem o ponto maior. O jogador e a banca lançam 


2,2 
cada um o seu dado e a seguinte regra de premiação é estabelecida: “i x, (3,3) 
- se o ponto do jogador é maior, ele ganha 2 vezes a diferença entre o se ,1) (4,2) (4,3) (4,4) 
ponto e o obtido pela banca; ,1) (5,2) (5,3) (5,4) (5,5) 
) (6,2) (6,3) 


- se o ponto do jogador é menor ou igual ao da banca, ele não ganha nada, (6,4) (6,5) (6,6) 


ê j ? E A nes ps r 
O que você acha desse jogo? A 41 pares têm todos a mesma probabilidade de ocorrência e, portanto, 


P(C = 0) = 21/36. De modo análogo, calculamos os demais valores e 
i função de probabilidade: 


a| o 2 4 6 8 10 
p; | 21/36 5/36 4/36 3/36 2/36 1/36 


Vamos admitir que os dados utilizados são perfeitamente homogêneos, dê 
tal forma que não há preferência na ocorrência de qualquer uma das seis faces 
Assim, podemos considerar que os pares de valores (b, j) representando 
respectivamente, o resultado obtido pela banca e pelo jogador, têm a mesm 
probabilidade de ocorrência. Isto é, qualquer par tem probabilidade 1/36 d 
ca pelusho sobre o jogo fica, então, evidente. Tendo em vista as 5 fichas pagas 


Para cada par (b, j) sorteado, a premiação é baseada nos seus valores o, O jogador só não terá prejuízo nos casos em que obtiver 6, 8 ou 10 


Definimos a variável aleatória discreta G como sendo o ganho bruto do jogado de retorno, o que AdGNESAS pasa probabilidade 
em uma jogada, isto é, o valor arrecadado sem descontar as fichas iniciais pagi 4/90 41/36 = 6/36. Portanto, o jogo é altamente favorável à banca e, 
para participar do jogo. Pela regra de premiação, segue que: de vom muita sorte (1/36), o jogador ganhará o dobro do que apostou. O 


P 


Em várias situações é útil calcular a probabilidade acumulada até um 
valor, A definição a seguir apresenta esse conceito. 


G= 2(j— b), se j>b 
e 0, se j< b. 


Dessa forma, se o jogador obtém 5 e a banca 6, temos G = 0 pois j < b (5<6 4 4,2: Função de distribuição de probabilidade 
Por outro lado, se o jogador tira 3 e a banca d, o valor do ganho bruto do jogado 
será G = 2 x (3 — 1) = 4. 

© O espaço amostral, correspondente a uma jogada, é apresentado a segu 
através dos pares (b, j): 


A Junção de distribuição ou função acumulada de probabilidade de uma 
| nlentória discreta X é definida, para qualquer número real x, pela 
WE expressão: 


0,0) (1,2) (1,3) (1,4) (1,5) (4,0) ici E 
a i e A E n D iplo 4,5: Uma população de 1000 crianças foi analisada num estudo para 
? , i ? ? ? Minar n cletividade de uma vacina contra um tipo de alergia. No estudo, as 
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6) Mas fecebiam uma dose de vacina e, após um mês, passavam por um novo 
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6 Basa ninda tivessem tido alguma reação alérgica, recebiam outra dose da 
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6) Ma Aù fim de 5 doses todas as crianças foram consideradas imunizadas. Os 
O valor G = 0 acontecerá quando o ponto do jogador for menor ou igui lados completos estão na tabela a seguir. 


ao da banca. Esse caso corresponde ao seguinte subconjunto do espaço amostraly: 


Doses 
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' Supondo que uma criança dessa população é sorteada ao acaso, qual será a 
probabilidade dela ter recebido 2 doses? Utilizando a idéia de atribuir. 
probabilidade através da frequência de ocorrência, a probabilidade desejada é de 
288/1000 = 0,288. A função de probabilidade da variável aleatória número de 
doses recebidas fica sendo: 


Doses 1 2 3 4 5 
0,245 0,288 0,256 0,145 0,066 


Hx) 
1,000 
0,994 


0,709 


0,533 
Suponha, agora, que desejamos calcular a probabilidade da criança ter recebido! 
até duas vacinas. O que precisamos obter é a função de distribuição no ponto 2, 
ou seja, calculamos a probabilidade acumulada de ocorrência de valores menores! 
ou iguais a 2. Assim, | 


F(2) = P(X < 2) = P(X = 1) + P(X = 2) = 0,533. 


0,245 


Note que, tendo em vista que a variável só assume valores inteiros, esse valor fica 
inalterado no intervalo [2, 3). Isto é, F(2,1); F(2,45) ou F(2,99) têm todos o 
mesmo valor acima. Por essa razão escrevemos: 


F(x) = P(X < x) = 0,533 para 2< z < 3. 


Figura 3.2: Função de distribuição - doses de vacina. 


plo 4,6: Num estudo sobre a incidência de câncer foi registrado, para cada 
We com esse diagnóstico, o número de casos de câncer em parentes 
os (pais, irmãos, tios, filhos, primos e sobrinhos). Os dados de 26 pacientes 


oguinto s: 


Os valores completos da função de distribuição são os seguintes: 


2/3 /4]5[6]7[8]79[10[11 [12/13/14] 
3 Ro ao 
GAGO 
2)2[3|2)1|5S[4[o[/0[/37/3| 
Wios anteriores assumem que a incidência de câncer em parentes próximos 
E ker teoricamente modelada pela seguinte função discreta de probabilidade: 


0 “se x< 1; 
0,245 se 1<r<2; 
0,533 se 2<rx<g3; 
0,789 se 3<xv<4; 
0,934 se 4<xr< 5; 

1 se r> 5. 


Incidência | 0 1 2 3 4 5 
0,1 0,1 0,3 0,3 0,1 0,1 


A notação utilizada para escrever a função de distribuição pode, À 
primeira vista, parecer confusa, mas como as contas efetuadas são simples, 
acreditamos que com um pouco de treino o leitor ficará familiarizado com essa 
função. A Figura 3.2 apresenta um diagrama dessa função. 


a observados concordam com o modelo teórico? 


Da tabela de dados brutos com as 26 observações, coletamos para cada 
E da variável, o número de suas ocorrências. Por outro lado, seguindo o 
teórico, o número de observações que seria esperado em cada incidência 
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(fregiiência esperada) é calculado como e; = 26 x p;. Note que os valores 
esperados não precisam ser números inteiros, pois representam uma fregiiência 
teórica caso o modelo fosse adequado. A tabela a seguir apresenta os resultados: 


n; (observados) | e; (esperados) 


om da Seção 3.1: 


a Moeda viciada tem probabilidade de cara igual a 0,4. Para dois 
amentos independentes dessa moeda, estude o comportamento da variável 
o de caras e faça um gráfico de sua função de distribuição. 


base na informação que você conhece, crie os valores e as respectivas 
bilidades para a variável número de filhos em famílias, no caso da 
lação considerada ser: 

Else média paulistana. 

habitantes do interior do Maranhão. 


4 emminho para chegar a uma festa pode ser dividido em três etapas. Sem 
pos O trajeto é feito em 1 hora. Se enganos acontecem na primeira etapa, 
ente 10 minutos ao tempo do trajeto. Para enganos na segunda etapa, o - 
imo é 20 e, para a terceira, 30 minutos. Admita que a probabilidade de 
o é 0,1;0,2 e 0,3 para a primeira, segunda e terceira etapas, 


ivamente, E provável haver atraso na chegada à festa? Determine a 
bilidade de haver atraso, e o atraso não passar de 40 minutos. 


Representando em um mesmo diagrama as duas frequências obtemos: 


Fre 

a É mada mero de anos prestando vestibular para conseguir uma vaga na 
Waldade está sendo estudado. As carreiras têm procura diferentes e, em 
8 o o Ai delas, O comum pode ser prestar vestibular mais de um ano. Suponha 
pavolhemos, ao acaso, um dos ingressantes da sua carreira. Que 
6 . po E bilidade você atribuiria (invente!) à necessidade de 1, 2, 3, ... anos de 

atuar? 
4 + . anl leva o filho ao cinema e vai gastar nas duas entradas R$ 15. O filho vai 
dE para comer pipoca com probabilidade 0,7 e, além disso, pode pedir bala. 
5 cá 4 g M probabilidade 0,9. Esses pedidos são atendidos pelo pai com 
sabilidade 0,5; independentemente um do outro. Se a pipoca custa R$ 2 e a 

, E 4, estude o gasto efetuado com a ida ao cinema. 
T— T T E ai T dá 
Casos aa variavel aleatória X tem a seguinte função de distribuição: 
0 1 2 3 4 5 


0 se t < 10; 
Ou Se Wa aa< 2; 
Fis)=405 se l2<gz<3; 
0,9 se ly< y < 25; 

1: se T2 


Notamos que os dados observados seguem a mesma tendência do model 
teórico, porém seus valores são discrepantes. E uma amostra pequena, mas parece 
não haver boa adaptação entre os dois conjuntos de números. E 
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0 gráfico da densidade é apresentado na Figura 3.3 para o caso k = 10. 


Determine: 
a. À função de probabilidade de X. 
b. P(X < 12). Pad PN sa) 
c. P(X < 12). 
d. P (12 <: X -< 20). 0,10 Mets t A oia Ros fios ud 
e PÉ > 1Bj N + 2 O O RS RR 
0,00 | TE RI De o 
| H : ! i i 
3.2 Principais Modelos Discretos Eme | | Poda mE 
Os exemplos da seção anterior ajudam a esclarecer a relação entre | TH i i | 
variável e a realização do experimento aleatório que a origina. Cada possíve 0,04 E UM poerdo furo) 
elemento do espaço amostral é uma realização do experimento e corresponde rr O DS T o a 
um yalor da variável, nem sempre distinto. 0,02 e ol e e a 
Algumas variáveis aleatórias aparecem com bastante fregiiência e do do À T a Er 
situações práticas e justificam um estudo mais aprofundado. Em geral nesse! EA E TT a 
casos, a distribuição de probabilidade pode ser escrita de uma maneira ma RR 2 0 40565-686. 7/8 8, 10 x 


compacta, isto é, existe uma lei para atribuir as probabilidades. 
Por exemplo, se uma variável aleatória W tem função de probabilidadi 
dada por 


Figura 3,3: Modelo Uniforme Discreto [0, 10]. 


Øhrerye que a expressão na definição anterior, de fato, representa uma 
disoreta de probabilidade, uma vez que seus valores estão no intervalo 
a soma de todas as probabilidades é igual a 1. O modelo Uniforme tem 
je, porque todos os seus valores ocorrem com a mesma probabilidade e, 
podemos dizer que a probabilidade se distribui uniformemente entre os 
valores, 


DE jd dede dot med woe A 
a ya S/0 4/4 BOL 6/0 


então, escrevemos essas probabilidades como P(W =k)=k/2 
k = 1,2,...,6. Dessa maneira, temos uma forma abreviada de apresentar | 
variável e sua função de probabilidade. Vamos apresentar os principais model 
de variáveis aleatórias discretas, começando pelo mais simples a seguir, que 
aquele que atribui igual probabilidade a todos os possíveis valores da variável, 


Definição 3.3: Modelo Uniforme Discreto 


4 474 Uma rifa tem 100 bilhetes numerados de 1 a 100. Tenho 5 bilhetes 
utivos numerados de 21 a 25 e meu colega tem outros 5 bilhetes, com os 
dos |, |1, 29, 68 e 93. Quem tem maior possibilidade de ser sorteado? 

A primeira vista tem-se a impressão de que "espalhar" os números é a 
oe maneira de ganhar o Sorteio. Entretanto, assumindo a honestidade da rifa, 
pe números tem a mesma probabilidade de ocorrência, com 1/100 para cada 
A variável aleatória em questão, o número sorteado, segue o modelo 
me e, portanto, eu e meu colega com 5 bilhetes temos a mesma 
abilidade de ganhar a rifa. Neste sorteio, como no modelo Uniforme em 
AL a malor ou menor probabilidade de ganhar depende de quantos bilhetes'se 
ERAD da particular escolha do número, [a 


Seja X uma variável aleatória cujos possíveis valores são representad 
por £1, £2, %3,..., p. Dizemos que X segue o modelo Uniforme Discreto . 
atribui a mesma probabilidade 1/k a cada um desses k valores, isto é, sua funçã 
de probabilidade é dada por 


P(X=2)=1/k,Vj=1,2,...,k. 


[N ) = MN 
| ps EE 
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Ao construir a árvore de probabilidades, consideramos que a escolha dos 
duos foi feita a partir de uma população muito grande. Dessa forma, cada 
fan escolhido tem probabilidade 0,80 de estar imunizado, independente dos 
E livíduos da população. Se classificamos como sucesso a ocorrência de 
o, lemos a repetição independente de três ensaios de Bernoulli, 
i que desejamos estudar o comportamento da variável X: número de 
ø imunizados nesse grupo. Ela assume os valores 0,1,2 e 3 com 


Indos calculadas com o auxílio da árvore e apresentadas na tabela: 


y , 
| 
E 


Em muitas situações práticas a variável de interesse assume somente do! 
valores. Por exemplo, a peça é classificada como boa ou defeituosa; 
entrevistado concorda ou não com a afirmação feita; a vacina imunizou ou não 
criança. Estas situações têm alternativas dicotômicas, que genericamente pode 
ser representadas por respostas do tipo sucesso-fracasso. A atribuição de qual d 
respostas será referida como sucesso é feita de modo arbitrário, mas deve 8 
definida claramente para evitar ambigiidades. Esses experimentos recebem | 
nome de Ensaios de Bernoulli e dão origem a uma variável aleatória com 
mesmo nome. 


Definição 3.4: Modelo Bernoulli 


Dizemos que uma variável X segue o modelo Bernoulli se atribui O ou 1 
ocorrência de fracasso ou sucesso, respectivamente. Com p representando 
probabilidade de sucesso, O < p < 1, sua função discreta de probabilidade é dad 


por 


DU 0,8 x 0,2? 
wli p F TELE 
ou, de modo resumido, P(X =) = p (1-p)J-", Tir = opak BESTE 


A repetição de ensaios de Bernoulli independentes dá origem à mal 


importante variável aleatória discreta denominada modelo Binomial. dentomente, a função de probabilidade de X fica sendo 


Exemplo 3.8: Sabe-se que a eficiência de uma vacina é de 80%. Um grupo de ti y () 1 2 3 
indivíduos É sorteado, dentre a população vacinada, e submetido a testes pa r7 | 7, 7 3x08x0,27 3x0,8x02 0,8 
averiguar se a imunização foi efetiva, evento representado por I. A árvore d 
RCE a i i D comportamento de X é completamente determinado pela função acima, 
Ba I habilidades também podem ser escritas através da expressão 
0,8 I á i 
i ã j P(X = k) = ( ) OB beto 
0,8 0,8 I k 
0.2 E De que estas probabilidades correspondem aos termos do desenvolvimento 
Bamio de Newton de (0,8 + 0,2)*, o que justifica o nome escolhido para 
gs I pilejo O 


0,2 
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Definição 3.5: Modelo Binomial 


Considere a repetição de n ensaios de Bernoulli independentes e todos 
com a mesma. probabilidade de sucesso p. A variável aleatória que conta o 
número total de sucessos é denominada Binomial com parâmetros n e p e sua 
função de probabilidade é dada por 
JP =p)" , k =0,1,2,:::,n, 


com (“) representando o coeficiente binomial calculado por 
k P 


(6) = e 


Usaremos a notação X ~ b(n, p) para indicar que a variável aleatória X segue o 
modelo Binomial com parâmetros n e p. O 


É importante notar que as probabilidades são completamente 
caracterizadas pela informação dos parâmetros. Por exemplo, desejando calcular a 
probabilidade de 3 sucessos numa b(12; 0,4) temos 


12 12! 
P(X = 3) = (7 ) 00,0 = EgO 0,0 = 0,142. 


De modo similar, obtemos os outros valores da função discreta de probabilidade: 
HEERE [1 [2 [3 [4 75 Tõo6l] 
07 


FOTTES Oppo 
pr [0,107 [0,042 


O valor 0* indica uma probabilidade muito pequena que, na aproximação de 
milésimos (3 casas após a vírgula), não teve casa decimal diferente de zero. 

Diversos programas computacionais contêm rotinas que calculam as 
probabilidades da distribuição Binomial e alguns livros-texto incluem tabelas 
dessa distribuição, para vários valores dos parâmetros. 
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Em muitas situações práticas, a variável Binomial aparece a partir de 
outras variáveis, através da criação de duas categorias excludentes, como no 
exemplo a seguir. 


Exemplo 3.9: O escore em um teste internacional de proficiência na língua 
inglesa varia de O a 700 pontos, com mais pontos indicando um melhor 
desempenho. Informações, coletadas durante vários anos, permitem estabelecer o 
seguinte modelo para o desempenho no teste: 


| 
E 


Várias universidades americanas, exigem um escore mínimo de 600 pontos para 
aceitar candidatos de países de língua não inglesa. De um grande grupo de 
estudantes brasileiros que prestaram o último exame, escolhemos ao acaso 20 
deles. Qual seria a probabilidade de no máximo 3 atenderem ao requisito mínimo 
mencionado? 

Vamos admitir que a tabela acima representa o escore dos estudantes que 
estão prestando esse último exame. Essa é uma suposição razoável tendo em vista 
que a tabela foi feita a partir de um conjunto muito grande de dados. Isto quer 
dizer que um aluno selecionado ao acaso apresentará um dos vários escores de 
acordo com as probabilidades apresentadas na tabela. Por exemplo, a chance de 
npresentar menos de 200 pontos é 0,06. Admitimos ainda que os estudantes 
brasileiros têm comportamento similar aos demais e portanto a tabela também 
pode ser usada para representar esse desempenho. 

Pelo critério das universidades, o estudante é classificado como apto, se 
seu escore é de 600 pontos ou mais, caso contrário, será considerado não apto. 
Dessa forma, para cada indivíduo, teremos a classificação de apto ou não, feita de 
modo independente e com as seguintes probabilidades 


600, 700 
0,10 


j 


P(apto) = 0,10 e P(não apto) = 0,90. 


Definindo uma nova variável X como o número de estudantes aptos 
dentre os 20, temos que X ~ b(20;0,10). A probabilidade de no máximo 3 serem 
uptos é calculada pela função de distribuição no ponto 3, ou seja, 


F(3)=P(X<3). 


Dessa forma, temos: 
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Y 3, /20 
<3)= 0,18 0,927} 
Pixs oo, 


k=0 


2 20 20 
E ™ 0,1? 0,9” + i 0,1! 0,91 + 0,12 0,918 + 00,97 
0 1 2 3 
= 0,122 + 0,270 + 0,285 + 0,190 = 0,867. 


Esse valor reflete as altas probabilidades atribuídas aos escores menores de 600, 
conforme o modelo de desempenho no teste. o 


Exemplo 3.10: Um veterinário está estudando o índice de natalidade em porcos 
sujeitos à inseminação artificial. Para tal, coletou informações sobre a variável 
número de filhotes nascidos vivos em cada uma das 100 inseminações realizadas 
com o mesmo reprodutor. A tabela a seguir apresenta os resultados. 


~ Nimo Jasas eeo] 
(Freq. Observada | 1 | 6 [7 |2 0 ra [1 


É muito comum buscar estabelecer um modelo para a variável de interesse, o que 
nesse caso possibilitaria, por exemplo, a comparação entre diferentes 
reprodutores. O veterinário informa que 11 ou mais filhotes nascidos vivos é uma 
ocorrência muito rara e pode ser desprezada em termos de modelo. Nestes termos, 
ele sugeriu considerar que a variável N: número de filhotes nascidos vivos, 
poderia ser ajustada pelo. modelo Binomial com parâmetros n = 10 e p = 0,5. O 
que você acha da sugestão do veterinário? 

Note que, mesmo não tendo havido nenhuma observação do valor O ou 
10, o veterinário sugeriu o modelo de uma variável que contém esses valores, pois 
apesar de não serem comuns eles podem acontecer. Com o modelo sugerido, 
calculamos as probabilidades de cada um dos valores de 0 a 10 e, a partir deles, os 
resultados que seriam esperados em 100 inseminações realizadas. Por exemplo, 


1 
P(N=7)= ( r ) 0570,5 = 0,117; 
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e, então, podemos concluir por uma expectativa de 11,7 nascimentos com 7 
filhotes dentre as 100 inseminações. Observe que os valores esperados não 
precisam ser números inteiros, pois representam uma freqiiência teórica de 
ocorrência. A tabela a seguir contém os valores observados e os esperados, se o 
modelo Binomial fosse utilizado. 


NEM A RE RC E RC A 
apena 
[01 [1 [44 [117 [205 [246 [205 [17 [44 [1 [or] 


O modelo proposto parece se ajustar bem aos dados observados (veja a 
Figura 3.4) e tendemos a acreditar que o modelo Binomial é uma escolha 
adequada. A representação gráfica torna-se assim, um importante passo inicial 
para auxiliar na escolha de um modelo probabilístico. A verificação aqui foi 
apenas visual, mas é possível estabelecer procedimentos estatísticos que testam o 
ajuste do modelo proposto de forma objetiva. Procedimentos mais rigorosos 
devem ser utilizados para a decisão final e podem se basear em um teste 


Filhotes 
Treg. Observada 
Freq. Esperada 


estatístico conhecido como Teste de Aderência. o 
Freq + Observada 
25 1 E > Esperada 
+ 
20 J o g 
15 4 
| > e 
10 
e La 
5 À a A 
+ 
+ + 
0 . º 
Le. T T T ES GR T T E a 
0 1 2 3 4 5 6 7 8 9 10 
Filhotes 


Figura 3.4: Gráfico de fregiiências- natalidade em porcos. 
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Ao finalizar essa seção, é oportuno mencionar as diferentes formas 
utilizadas para referenciar os modelos teóricos das variáveis aleatórias. Por 
exemplo, alguns autores referem-se a uma variável aleatória com distribuição 
Binomial enquanto outros enfatizam uma variável aleatória seguindo o modelo 
Binomial. Neste livro, vamos utilizar indistintamente essas duas formas que 
consideramos equivalentes. 


Exercícios da Seção 3.2: 


1. Discuta a validade do modelo Uniforme Discreto nos seguintes casos: 
a. O número sorteado numa rifa com 100 números. 
b. A escolha de um aluno que vai representar a classe junto à direção da 
escola. 
c. O dia da semana em que ocorrem mais acidentes de trabalho numa indústria. 
d. O mês do ano com maior número de enchentes na cidade de São Paulo. 


2. Sendo X uma variável seguindo o modelo Uniforme Discreto, com valores no 
conjunto (1,2,3,...,10), pergunta-se: 
a. P(X > 7). 
b. P(3<X <7). 

© e P(X <2 ou X> 8)( > 
d. P(X > 5 ou X > 8). 

à eP(X>3eX<6). 

xf. P(X <9|X > 6) 


3. Um usuário de transporte coletivo chega pontualmente às 8 horas para pegar o 
seu ônibus. Devido ao trânsito caótico, a demora pode ser qualquer tempo 
entre 1 e 20 minutos (admita que o relógio "pule" de minuto em minuto). 
Pergunta-se: 7 
a. Qual a probabilidade de demorar mais de 10 minutos? © Å 
b. Qual a probabilidade de demorar pelo menos 5 mas não mais de 10 minutos? 
c. Qual a probabilidade da demora não chegar a 5 minutos? 

^\ d. Se um amigo chegou 10 minutos atrasado e vai pegar o mesmo ônibus (que 
1º ainda não passou), qual a probabilidade do amigo atrasado esperar até 3 
minutos? ” 


X 


4. Discuta a validade do modelo Binomial nos seguintes casos: 
a. Dos alunos de uma grande universidade, sorteamos 5 e contamos quantos se 
declaram usuários de drogas. 
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b. Escolhemos 20 lâmpadas ao acaso na prateleira de um supermercado, sendo 
10 de uma fábrica e 10 de outra. Contamos o número total de defeituosas. 

c. Quinze automóveis 0 km de uma mesma marca e tipo são submetidos a um 
teste anti-poluição e contamos o número deles que passaram no teste. 

d. Um motorista é submetido a um teste em que deve estacionar seu veículo 
num pequeno espaço (isto é popularmente chamado de fazer baliza). Em 10 
tentativas, contamos o número de vezes em que o motorista estacionou 
corretamente. 


5. Sendo X uma variável seguindo o modelo Binomial com parâmetros n = 15 e 
p = 0,4; pergunta-se: 
a. P(X >14). & 
b. P(8 < X < 10). 
c. P(X < 2 ou X > 11). 
d. P(X > 11 ou X > 13). 
e P(X>3eX<6). 
f. P(X < 13|X > 11). 


6. Uma certa doença pode ser curada através de procedimento cirúrgico em 80% 
dos casos. Dentre os que têm essa doença, sorteamos 15 pacientes que serão 
submetidos à cirurgia. Fazendo alguma suposição adicional que julgar 
necessária, responda qual é a probabilidade de: 

a. Todos serem curados? ( 
b. Pelo menos dois não serem curados? 
c. Ao menos 10 ficarem livres da doença? 


7. Calcule a função de distribuição da variável X nos casos: 
a. X é Bernoulli com p = 0,6. 
b. X ~ b(4;0,20). 
c. X ~ b(8;0,10). 


3.3 Outros Modelos Discretos 


Apresentamos, nesta seção, os modelos Geométrico, Poisson è 
Hipergeométrico, que têm várias aplicações práticas, conforme ilustram os 
exemplos desta seção. Na seção anterior, os modelos definidos assumiram apenas 
tm número finito de valores distintos. Foi assim com o modelo Uniforme 
Discreto com valores 1,2,...,X, Bernoulli com 0 e 1 e Binomial com os valores 
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0,1,...,n. Como veremos a seguir, os modelos Geométrico e Poisson podem ter 
um número infinito de valores dentre os inteiros positivos. 


Definição 3.6: Modelo Geométrico 


Dizemos que uma variável aleatória X tem distribuição Geométrica de 
parâmetro p, se sua função de probabilidade tem a forma 


P(X=hb=p(1-p), 0O<p<lek=0,1,2,.... 


Nesse caso, usaremos a notação X~ G(p). 0 


Interpretando p como a probabilidade de sucesso, a distribuição 
Geométrica pode ser pensada como o número de ensaios de Bernoulli que 
precedem o primeiro sucesso. Note que a expressão apresentada na Definição 3.6 
é de fato uma função de probabilidade, pois é positiva e sua soma é igual a 1, 
conforme pode ser verificado através da fórmula da soma de progressão 
geométrica (PG) infinita: 


Sras Yo- -y 


Exemplo 3.11: Uma linha de produção está sendo analisada para efeito de 
controle da qualidade das peças produzidas. Tendo em vista o alto padrão 
requerido, a produção é interrompida para regulagem toda vez que uma peça 
defeituosa é observada. Se 0,01 é a probabilidade da peça ser defeituosa, estude o 
comportamento da variável Q, quantidade de peças boas produzidas antes da la. 
defeituosa. 

Vamos admitir que cada peça processada tem a mesma probabilidade de 
ser defeituosa, independentemente da qualidade das demais. Sendo a ocorrência 
de peça defeituosa um sucesso, podemos aplicar o modelo Geométrico. Observe 
que o número de peças boas produzidas é exatamente o quanto se “espera” para a 


ocorrência do primeiro sucesso. Temos, 


P(Q = k) = 0,01 x 0,99, k=0,1,2,..., 


cuja representação gráfica está na Figura 3.5. 
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P(Q =k) 
0,010 


0,008 
0,006 
0,004 


0,002 


0 4 8 12 16 20 24 28 32 36 40 44 48 k 


Figura 3.5: Modelo Geométrico (p = 0,01). 


Como podemos verificar através da figura, a probabilidade vai ficando muito 
pequena para valores grandes de k. Em tese, a produção nunca seria interrompida 
se não houvesse o aparecimento de uma peça defeituosa. O 


Definição 3.7: Modelo Poisson 
Uma variável aleatória X tem distribuição de Poisson com parâmetro 
A > 0, se sua função de probabilidade é dada por 
ETA AF 
= 


k = 0,1,2,..., 


com o parâmetro À sendo usualmente referido como a taxa de ocorrência. A 
notação utilizada será X~ Po(A). o 


O modelo Poisson tem sido muito utilizado em experimentos físicos e 
biológicos e, nesses casos, À é a freqüência média ou esperada de ocorrências 
num determinado intervalo de tempo. Vamos verificar que a expressão 
apresentada realmente representa uma função de probabilidade. Não é difícil 
observar que, para qualquer k, ela é um número positivo. Resta mostrar que as 
probabilidades somam 1. Temos, 


80 Capítulo 3: Variáveis Aleatórias Discretas 


No cálculo acima, usamos que a série A*/k!, somada para valores de k entre 0 e 
oo, produz eò. Esse resultado é bastante conhecido e segue do desenvolvimento 
em série de Taylor do termo e^. O leitor interessado poderá consultar, para outros 
detalhes, textos básicos de Cálculo Diferencial e Integral. 


Exemplo 3.12: A emissão de partículas radioativas tem sido modelada através de 
uma distribuição de Poisson, com o valor do parâmetro dependendo da fonte 
utilizada. Suponha que o número de partículas alfa, emitidas por minuto, seja uma 
variável aleatória seguindo o modelo Poisson com parâmetro 5, isto é, a taxa 
média de ocorrência é de 5 emissões a cada minuto. Calculemos a probabilidade 
de haver mais de 2 emissões em um minuto. 

Seja À o número de partículas alfa emitidas por minuto. Pelas suposições 
feitas, temos A ~ Po(5) e a probabilidade desejada será 


o0 2 2 —5 na 
P(A>2) =Y PA=) =1 -PPA 
a=3 a=0 a=0 d 


Após os cálculos necessários, obtemos P(A > 2) = 0,875. Representamos na 
Figura 3.6, alguns valores da função discreta de probabilidade da Po(5). 


W 


P(N=n) 
0,18 
0,16 
0,14 
0,124 
0,107 
0,08 


gm 
0,04 7 
0,024 | 3 
4 l =] r= 
2 4 6 8 10 12 14 


16 18 20 i 


Y 


Figura 3.6: Modelo Poisson (À = 5). 
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Se o intervalo de tempo é alterado, a variável aleatória mantém a mesma 
distribuição de Poisson, mas com o valor do parâmetro ajustado de forma 
conveniente. Assim, se o período de tempo considerado for de dois minutos, 
teremos que o número de partículas emitidas em dois minutos terá distribuição 


Po(10). o 


Exemplo 3.13: Engenheiros da companhia telefônica estudam se o modelo de 
Poisson pode ser ajustado ao número N de chamadas interestaduais que chegam, 
por hora, a uma central telefônica, durante o período noturno. Os dados coletados, 
peferentes a 650 períodos de uma hora, estão apresentados a seguir: 


[Chamadas [O[i [2/3 [AE Jeres 
[reg Observada [9 [38 [71 [115 [125 [106 [79 [50/57 1 


Da tabela temos que, por exemplo, em 125 períodos de uma hora 
correram 4 chamadas. 

Os engenheiros sugerem utilizar uma taxa de ocorrência de 4,5 chamadas 
por hora no período estudado. Seguindo o modelo indicado, a frequência esperada 
de ocorrências com k chamadas é obtida multiplicando 650 (o total das 
Observações) pela probabilidade de k chamadas. Assim, para k = 2, temos 


Freq. esperada para 2 chamadas = 650 x P(N = 2) 
e745 4,52 
= 650 x e 

= 73,13. 


De modo análogo obtemos os demais valores. 


IT Jas ATI 
9 [3 [A 
7,22 | 32,50 | 73,13 | 109,66 | 123,37 | 111,02 | 83,27 | 53,56 


Chamadas 
Observada 


Esperada 


A tabela acima parece indicar que o modelo Poisson, com À = 4,5 
fornece um bom ajuste para a variável aleatória de interesse. O leitor pode 


construir um gráfico de frequência” para visualizar melhor essa aderência. A 
extensão dessas conclusões aos diferentes períodos de tempo e/ou outros tipos de 
ëhħamada deve ser feita com cuidado, porém o ajuste já obtido é uma "boa pista" 


«para a escolha do modelo. Como mencionamos anteriormente, a conclusão obtida 
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aqui poderia ser feita de modo mais objetivo através de Testes Estatísticos de 
Aderência. o 


Encerramos esta seção, definindo o modelo Hipergeométrico. Este 
modelo surge da contagem de objetos de certo tipo, retirados ao acaso e sem 
reposição, de um conjunto contendo dois tipos de objetos. Por exemplo, num 
grupo de jovens com 5 meninas e 5 meninos, sorteamos 3 deles ao acaso, para 
fazer uma comissão. O sorteio será feito sem reposição, para evitar a escolha de 
uma mesma pessoa, o que inviabilizaria a formação da comissão. Na primeira 
escolha cada um dos 10 jovens tem 1/10 de probabilidade de ser sorteado. Na 
segunda, cada um dos 9 restantes, será sorteado com probabilidade 1/9 e, na 
terceira, 1/8. A variável aleatória número de meninas na comissão segue o modelo 
Hipergeométrico, conforme definido abaixo. 


Definição 3.8: Modelo Hipergeométrico 


Considere um conjunto de n objetos dos quais m são do tipo I e n- m 
são do tipo II. Para um sorteio de r objetos (r < n), feito ao acaso e sem 
reposição, defina X como o número de objetos de tipo I selecionados. Diremos 
que a variável aleatória X segue o modelo Hipergeométrico e sua função de 
probabilidade é dada pela expressão 


fts 
P(X =k) = EL, p=0,1,...,min(r;m). o 
( r ) E 

Note que os valores possíveis de X vão de 0 a min(r, m), uma vez que 
não podemos ter mais do que o número de objetos existentes do tipo I, nem 
tampouco mais que o total de sorteados. Utilizando resultados de análise 
combinatória, pode-se verificar que a expressão de P(X = k) é um número não 
negativo entre O e 1 e a soma, para todos os valores de k, é igual a 1. Assim estão 

cumpridos os requisitos necessários para ser uma função de probabilidade. 


Exemplo 3.14: Uma fábrica produz peças que são embaladas em caixas com 25 
unidades. Para aceitar o lote enviado por essa fábrica, o controle de qualidade de 
uma empresa procede da seguinte forma. Sorteia uma caixa do lote e, em seguida, 
sorteia cinco peças, sem reposição, dessa mesma caixa. Se constatar no máximo 
duas defeituosas, aceita o lote fornecido pela fábrica. Se a caixa sorteada tivesse 4 
peças defeituosas, qual seria a probabilidade de rejeitar o lote? 
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A caixa pode ter peças boas ou defeituosas e vamos sortear algumas 
peças, sem reposição. Baseado no número de peças defeituosas encontradas 
decidimos por aceitar ou rejeitar o lote. Seja D a variável que conta o número de 
peças defeituosas neste sorteio. Ela segue o modelo Hipergeométrico e vamos 
identificar os diversos parâmetros. O total de peças é n = 25, o número de 
defeituosas é m = 4 e o número de retiradas é r = 5. 


P(aceitar o lote) = P(no máximo 2 peças defeituosas) = P(D < 2). 


intão, 
43/21 4/21 43/21 
E Ao im as 
tri tá ` 
5 5 
Concluímos que, mesmo havendo quatro defeituosas na caixa inspecionada, a 
probabilidade de aceitar o lote é 0,984 ou, equivalentemente, para rejeitar o lote a 
probabilidade é 0,016. Claro que, na prática, não saberemos quantas peças 
defeituosas existem em cada caixa. Entretanto, a probabilidade calculada acima 
poderia ser um indicativo para avaliar se o critério do controle de qualidade está 
razoável ou não e, neste caso, parece que não! Poderíamos também criar uma 


tabela contendo os valores da probabilidade de rejeição do lote, em função de 
haver certo número de peças defeituosas na caixa sorteada. O 


P(D < 2) = 


Exercícios da Seção 3.3: 


1. Sendo X(5)G(0,4), calcule: 
a. P(X =3). 
b. P(2 < X <4). 
c P(X > UX < 2). 
d. P(X > 1). 


2. Uma moeda equilibrada é lançada sucessivamente, de modo independente, até 
que ocorra a primeira cara. Seja X a variável aleatória que conta o número de 
lançamentos anteriores à ocorrência de cara. Determine: 
üs P(X & 2): 

b. P(X > 1). 

e P(I<X Sd). 

d. Quantas vezes deve, no mínimo, ser lançada a moeda para garantir a 
ocorrência de cara com pelo menos 0,8 de probabilidade. 


Sd 
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3. A variável aleatória Y tem densidade Poisson com parâmetro À = 2. Obtenha: 


4. 


a P(Y < 2). 

b. P(2 < Y < 4). 

c P(Y > 0). 

d. P(Y = 1|Y < 3). 


A aplicação de fundo anti-corrosivo em chapas de aço de 1 m? é feita 
mecanicamente e pode produzir defeitos (pequenas bolhas na pintura), de 
acordo com uma variável aleatória Poisson de parâmetro À = 1 por m?. Uma 
chapa é sorteada ao acaso para ser inspecionada, pergunta-se a probabilidade 
de: 

a. Encontrarmos pelo menos 1 defeito. 

b. No máximo 2 defeitos serem encontrados. 

c. Encontrarmos de 2 a 4 defeitos. 

d. Não mais de 1 defeito ser encontrado. 


5. A variável H segue o modelo Hipergeométrico com parâmetros n = 10,m = 5 


6. 


e r = 4. Determine: 
a. P(H = 2). 
b. P(H < 1). 
c. P(H > 0). 


Por engano 3 peças defeituosas foram misturadas com boas formando um lote 
com: 12 peças no total. Escolhendo ao acaso 4 dessas peças, determine a 
probabilidade de encontrar: 

a. Pelo menos 2 defeituosas. 

b. No máximo 1 defeituosa. 

c. No mínimo | boa. 


3.4 Exercícios 


Um agricultor cultiva laranjas e também produz mudas para vender. Após 
alguns meses a muda pode ser atacada por fungos com probabilidade 0,05 e, 
nesse caso, ela é escolhida para ser recuperada com probabilidade 0,5. Admita 
que o processo de recuperação é infalível. O custo de cada muda produzida é 
R$ 1,00; acrescido de mais R$0,50 se precisar ser recuperada. Cada muda é 
vendida a R$ 3,00 e são descartadas as mudas não recuperadas de ataque de 
fungos. Estude como se comporta o ganho por muda produzida. 
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2. Uma agência de turismo apresenta aos clientes o orçamento de uma certa 


viagem em duas partes. A primeira é o transporte aéreo que têm três opções 
com preços 3; 3,5 e 4 mil reais e preferências de escolha de 0,5; 0,3 e 0,2 para 
as companhias TWA, TWB e TWC, respectivamente. A segunda parte do 
orçamento é a escolha de estadia. Existem quatro opções de hotéis que custam 
2; 2,5; 3 e 3,5 mil reais e são escolhidos pelos clientes com a mesma 
preferência, independentemente da companhia aérea. Seja X a variável 
aleatória orçamento da viagem. Calcule a função de probabilidade e a função 
de distribuição da variável X . 


Um equipamento consiste de duas peças A e B que têm 0,10 e 0,15 de 
probabilidade de serem de qualidade inferior. Um operário escolhe ao acaso 
uma peça tipo A e uma tipo B para construir o equipamento. Na passagem pelo 
controle de qualidade o equipamento vai ser classificado. Será considerado 
como nível I, se as peças A e B forem de qualidade inferior. Será nível II, se 
uma delas for de qualidade inferior e, nível II, no outro caso. O lucro na venda 
é de R$ 10, R$ 20 ou R$30 para os níveis I, II ou II, respectivamente. Como se 
comporta a variável lucro? Para dois equipamentos vendidos, obtenha a função 
de probabilidade do lucro. Nesse caso, qual seria a probabilidade de pelo 
menos R$ 30 de lucro? 


Na verificação de máquinas, observam-se as partes elétrica, mecânica e 
estrutural. A probabilidade de aparecer uma falha em cada uma das partes é 
0,01; independente das demais. Ocorrendo falha, o tempo de conserto é 10, 20 
ou 50 minutos para falha elétrica, mecânica ou estrutural, respectivamente. Se 
a falha elétrica aparece junto com a falha mecânica, teremos ainda um 
acréscimo de 20 minutos. Para uma máquina escolhida ao acaso, qual a 
probabilidade do tempo de interrupção (se não há falha, esse tempo é zero): 

a. Durar menos de 25 minutos? 

b. Ultrapassar 40 minutos? 


Uma empresa paga a seus estagiários de engenharia de acordo com o ano de 
curso do estudante. Para se obter o salário mensal pago por 30 horas semanais, 
multiplica-se o salário mínimo pelo ano de curso do estagiário. Dessa forma, o 
estudante do primeiro ano ganha um salário mínimo, o do segundo recebe dois 
e assim por diante até o quinto ano. A empresa vai empregar 2 novos 
estagiários e admitimos que todos os anos têm igual número de estudantes 
interessados no estágio (considere a população de candidatos muito grande de 
modo a não haver diferença entre escolher com ou sem reposição). Pergunta-se 
a probabilidade de: 
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a. Os dois serem do primeiro ano? 
b. A empresa gastar no máximo 3 salários míninos com os estágios? 
c. Sabendo que gastou pelo menos 4, gastar menos de 7 salários mínimos? 


6. Uma variável aleatória X tem a seguinte função de distribuição: 


0 se x < -—l]; 
0,2 se —1 < z< 2; 
05 se 2< g<; 


Fig) = 0,7 se b<xr<6: 
0,9 se6<a< 15; 
1 se x > 15. 
Determine: 
a. A função de probabilidade de X. 
b. P(X < —2). 
c. P(X <2). 
d. P(3 < X < 12). 
e. P(X > 14). 


7. Estatísticas de acidentes, num trecho da rodovia SP330, indicam probabilidade 


de 0,05 de haver um acidente durante a madrugada (24 às 6 horas). Em 
ocorrendo um acidente nesse período, a chance de gerar vítimas é de 0,5. 
Ainda considerando o período acima, se acontece um acidente com vítima, ela 
será fatal com probabilidade 0,1. O serviço de ajuda aos usuários utiliza 2 
veículos na inspeção do tráfego naquela área. A esse número, acrescentamos 
mais 2 se houver acidente. Se o acidente tem vítimas, acrescente aos anteriores 
mais 2 veículos e, finalmente, acrescente mais 1 se a vítima for fatal. Encontre 
a função de probabilidade da variável aleatória número de veículos em serviço 
de auxílio nessa estrada durante a madrugada. 


Em treinamento de animais, usa-se a repetição como estratégia de 
aprendizagem. Num experimento, um macaco realiza certa tarefa corretamente, 
pela primeira vez, com probabilidade 0,5. Caso falhe, a probabilidade de 
realizar corretamente na segunda tentativa cresce 10%, ou seja, a probabilidade 
é agora 0,55 e assim sucessivamente. Admita que o experimento termina em 
quatro tentativas ou antes, na primeira vez que o macaco acertar. Descreva o 
comportamento probabilístico do número de tentativas. 
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9. Num certo restaurante, paga-se pelo almoço uma quantia fixa dependendo da 
escolha feita de prato e bebida. A carne de peixe tem 10% de preferência, 
enquanto frango tem 40% e carne bovina 50%. As três escolhas de bebida 
estão condicionadas à opção do prato, segundo a tabela abaixo: 


Opção: Peixe Vinho 
P(Bebida | Peixe) 0,3 


Opção: Frango Cerveja Vinho 
PlBcbida | Frango) 0,5 


Admita os seguintes preços: 


Peofi2 [15 [18 [6 [375 | 


a. Dado que alguém escolhe peixe, qual a probabilidade de que escolha 
cerveja? 

b. Se escolhe carne bovina, qual a probabilidade de tomar vinho? 

c. Sabendo que tomou água, qual a chance de ter escolhido frango? 

d. Determine a função de probabilidade para cada uma das variáveis X: preço 
do almoço e Y: preço do almoço para aqueles que preferem cerveja. 


10. Supondo igualdade de probabilidade entre nascimentos de cada sexo, para 
uma família com três filhos, calcule a probabilidade de que: 
a. Exatamente dois sejam do sexo masculino. 
b. Pelo menos um deles ser do sexo masculino. 
c. Todos serem do sexo feminino. 


I1. Um time paulista de futebol tem probabilidade 0,92 de vitória sempre que 
joga. Se o time atuar 4 vezes, determine a probabilidade de que vença 
a. Todas as 4 partidas. 
b. Exatamente 2 partidas. 
c. Pelo menos uma partida. 
d. No máximo 3 partidas. 
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e. Mais da metade das partidas. 


12. Um certo equipamento é expedido em lotes de 500 unidades. Antes que uma 
remessa seja aprovada, um inspetor escolhe 5 desses equipamentos e os 
inspeciona. Se nenhum dos equipamentos inspecionados for defeituoso, o lote 
é aprovado. Se um ou mais equipamentos forem defeituosos, todos as unidades 
são inspecionadas. Suponha que existam, de fato, dez equipamentos 
defeituosos no lote. Utilizando uma suposição conveniente, qual é a 
probabilidade de que seja necessário testar todos os equipamentos? 


13. Suponha que um modelo teórico para a variável notas em um teste de história 
(X), é dado por: 

lj] 
66 


Para 27 alunos submetidos a esse teste, apresentamos um resumo de suas 


notas: 
Dra 6 | 


P(X=j)= 1=0,1,2,...,10. 


Um professor desconfia que o modelo não é adequado. O que você acha? 


14. Um laboratório estuda a emissão de partículas de certo material radioativo. 
Seja N: número de partículas emitidas em 1 minuto. O laboratório admite que 
N tem função de probabilidade Poisson com parâmetro 5, isto é, 

-5rk 
P(N =k) = —  E=0,1,2,... 

a. Calcule a probabilidade de que em um minuto não haja emissões de 
partículas. 

b. Determine a probabilidade de que pelo menos uma partícula seja emitida em 
um minuto. 

c. Qual a probabilidade que, em um minuto, o número de partículas emitidas 
esteja entre 2 e 5 (inclusive)? 
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15. Considere uma variável aleatória X assumindo os valores 0,1,2,...,5 e tal 
que P(X = j) = k x 0,8 x 0,27, j = 0,1,2, ..., 5. 
a. Para qual valor de k a expressão acima é uma função de probabilidade? 
b. Calcule P(X = 3| X < 5). 


16. Uma vacina contra a gripe é eficiente em 70% dos casos. Sorteamos, ao acaso, 
20 dos pacientes vacinados e pergunta-se a probabilidade de obter: 
a. Pelo menos 18 imunizados. 
b. No máximo 4 imunizados. 
c. Não mais do que 3 não imunizados. 


17. 25% dos universitários de São Paulo praticam esporte. Escolhendo-se, ao 
acaso, 15 desses estudantes determine a probabilidade de: 
a. Pelo menos 2 deles serem esportistas. 
b. No mínimo 12 deles não serem esportistas. 
c. Havendo mais de 5 esportistas no grupo, obtermos menos de 7 que praticam 
esporte. 


18. As pacientes diagnosticadas com câncer de mama precocemente têm 80% de 
probabilidade de serem completamente curadas. Para um grupo de 12 pacientes 
nessas condições, calcule a probabilidade de: 

a. Oito ficarem completamente curadas. 
b. Não serem curadas de 3 a 5 pacientes. 
c. Não mais de 2 permanecerem com a doença. 


19. A resistência (em toneladas) de vigas de concreto produzidas por uma 
empresa, comporta-se conforme a função de probabilidade abaixo: 


Resistência | 2 3 4 5 6 
0,1 0,1 0,4 0,2 0,2 


Admita que essas vigas são aprovadas para uso em construções se suportarem 
pelo menos 3 toneladas. De um grande lote fabricado pela empresa, 
escolhemos 15 vigas ao acaso. Qual será a probabilidade de: 

a. Todas serem aptas para construções? 

b. No mínimo 13 serem aptas? 


20. Em momentos de pico, a chegada de aviões a um aeroporto se dá segundo o 
modelo Poisson com taxa de 1 por minuto. 
a. Determine a probabilidade de 3 chegadas em um minuto qualquer do horário 
de pico. 
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b. Se o aeroporto pode atender 2 aviões por minuto, qual a probabilidade de 
haver aviões sem atendimento imediato? 

c. Previsões para os próximos anos indicam que o tráfego deve dobrar nesse 
aeroporto, enquanto que a capacidade de atendimento poderá ser no 
máximo ampliada em 50%. Como ficará a probabilidade de espera por 
atendimento? 


21. Uma indústria de tintas recebe pedidos de seus vendedores através de fax, 


telefone e Internet. O número de pedidos que chegam por qualquer meio (no 

horário comercial) é uma variável aleatória discreta com distribuição Poisson 

com taxa de 5 pedidos por hora. 

a. Calcule a probabilidade de mais de 2 pedidos por hora. 

b. Em um dia de trabalho (8 horas), qual seria a probabilidade de haver 50 
pedidos? 

c. Não haver nenhum pedido, em um dia de trabalho, é um evento raro? 


22. No estudo do desempenho de uma central de computação, o acesso à Unidade 


Central de Processamento (CPU) é assumido ser Poisson com 4 requisições 

por segundo. Essas requisições podem ser de várias naturezas tais como: 

imprimir um arquivo, efetuar um certo cálculo ou enviar uma mensagem pela 

Internet, entre outras. 

a. Escolhendo-se ao acaso um intervalo de 1 segundo, qual é a probabilidade 
de haver mais de 2 acessos à CPU? E do número de acessos não ultrapassar 
5? > 

b. Considerando agora o intervalo de 10 segundos, também escolhido ao acaso, 
qual é a probabilidade de haver 50 acessos? 


23. Toda manhã, antes de iniciar a produção, o setor de manutenção de uma 


indústria faz a verificação de todo o equipamento. A experiência indica que em 

95% dos dias tudo está bem e a produção se inicia. Caso haja algum problema, 

uma revisão completa será feita e a indústria só começará a trabalhar após o 

almoço. Faça alguma suposição adicional que julgar necessária e responda: 

a. Qual é a probabilidade de demorar 10 dias para a primeira revisão completa? 

b. E de demorar pelo menos 15 dias? 

c. Um esquema de manutenção, com revisão preventiva, está sendo montado 
de modo a evitar a revisão completa num dia aleatório. Determine um dia d, 
tal que probabilidade de quebra além de d seja pelo menos igual a 0,6. 
Revisando com intervalos de d dias, o que estaremos garantindo? 
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24. Considere uma variável aleatória X ~ G (0,8). Construa uma nova variável 


Y tal que Y = X para os valores 0,1,2,...,5 e Y =6 para X > 6. Dessa 
forma, Y corresponde ao truncamento de X a valores menores ou iguais a 6. 
Obtenha a função de probabilidade de Y e calcule: 

a: P(Y =). 

b. O valor da função de distribuição (acumulada) no ponto 2,5. 

LF =3|Y Sã. 

d. P(Y = 30X <8). 


25. A duração (em centenas de horas) de uma lâmpada especial segue o modelo 


Geométrico com parâmetro p = 0,7. Determine a probabilidade da lâmpada: 

a. Durar menos de 500 horas. 

b. Durar mais de 200 e menos de 400 horas. 

c. Sabendo-se que vai durar mais de 300 horas, durar mais de 800 horas. 

d. O item anterior é uma aplicação de um resultado geral válido para o modelo 
Geométrico. Assim, mostre que para X ~ G(p) e quaisquer números 
inteiros positivos m e n, vale P(X >m+n|X > m)= P(X >n). 


26. Em um estudo sobre o crescimento de jacarés, uma pequena lagoa contém 4 


exemplares de espécie A e 5 da espécie B. A evolução de peso e tamanho dos 9 
jacarés da lagoa é acompanhada pelos pesquisadores através de capturas 
periódicas. Determine a probabilidade de, em três jacarés capturados de uma 
vez, obtermos: 

a. Todos da espécie A. 

b. Nem todos serem da espécie B. 

c. A maioria ser da espécie A. 


27. Um livreiro descuidado mistura 4 exemplares defeituosos junto com outros 16 


perfeitos de um certo livro didático. Quatro amigas vão a essa livraria para 

comprar seus livros escolares. 

a. Calcule a probabilidade de 3 levarem livros defeituosos. 

b. Qual a probabilidade de, após a visita dessas meninas, restarem o mesmo 
número de defeituosos na livraria? E de não restar nenhum? 


28. (Use o computador) Para os dados apresentados na Tabela 1.1 no Capítulo 1. 


a. Construa a tabela de freqüências para a variável Exer, horas de atividade 
física por semana. 

b. Suponha que 5 pessoas são selecionadas ao acaso. Qual a probabilidade de 
que 3 delas pratiquem, pelo menos, 6 horas de atividade física por semana? 
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c. Repita o item (b) calculando a probabilidade de todas as pessoas escolhidas 
praticarem pelo menos 6 horas de atividade física. 


29. (Use o computador) Considere a variável altura apresentada na Tabela 1.1, 

Capítulo 1. 

a. Crie uma variável Y; assumindo o valor 1 se a altura do indivíduo į for 
maior que a média de altura da população (indivíduos altos) e O caso 
contrário (indivíduos baixos). Apresente a distribuição de fregiiência para 
esta variável e uma representação gráfica adequada. 

b. Suponha que 13 alunos vão ser sorteados com reposição e a cada um deles 
será associada uma variável Y;, à = 1,...,13. Defina X: número de alunos 
altos. Como você expressaria X em termos das variáveis Y;, i = 1, ..., 13? 

c. Obtenha uma amostra de 100 valores da variável X, isto é, repita 100 vezes 
o sorteio de 13 alunos nas condições do item (b). Construa uma tabela de 
fregiiências. 

d. Qual seria o modelo de probabilidades adequado para as variáveis Y; 
i = 1,...,13? O modelo Binomial se aplica para X? Em caso afirmativo, 
quais seriam os parâmetros? Justifique suas resposta. (Uma boa idéia é 
calcular valores esperados e observados e colocá-los em um mesmo 
gráfico). 

e. Assumindo que o modelo Binomial é adequado para X: 

i. Calcule P(X = 7), P(X < 9) e P(0 < X < 13). 
ii. Qual é a probabilidade de pelo menos 4 alunos serem baixos? E de 
mais de 7 e menos do que 12 alunos serem altos? 


30. (Use o computador) Considere os dados do arquivo aeusp.txt descrito no 

Exercício 26, Capítulo 1. 

a. Para a variável Temposp, construa uma tabela de frequência com faixas de 
tamanho 10, a partir do zero. Obtenha o histograma correspondente e 
discuta a adequação de algum modelo discreto a esses dados. 

b. Faça um histograma da variável Resid. Verifique se o modelo Binomial com 
parâmetros n=10 e p=0,5 seria adequado para representar o 
comportamento dessa variável na população. 


Capítulo 4 


Medidas Resumo 


4.1 Introdução 

Neste capítulo, vamos apresentar algumas medidas que buscam sumarizar 
us informações disponíveis sobre o comportamento de uma variável. Podemos 
definir essas medidas nos casos de um conjunto de dados ou de uma função de 
probabilidade de variável aleatória. Apesar da natureza diferente de cada caso, as 
medidas terão a mesma interpretação, variando apenas na forma de serem 
culculadas. 

Lembremos que, no Capítulo 1, tivemos a oportunidade de discutir 
Algumas técnicas para estudar e apresentar descritivamente quantidades na 
população, seja por tabelas de fregiiências ou por gráficos adequados. O conjunto 
de dados com que trabalhamos poderia ser toda a população ou apenas uma parte 
tela. Já estudamos, no capítulo anterior, que a representação de eventos de 
Interesse pode ser feita através de variáveis aleatórias discretas e definimos alguns 
modelos cuja ocorrência na vida prática é mais comum. 

Nosso interesse é caracterizar o conjunto de dados através de medidas que 
tesumam a informação, por exemplo, representando a tendência central dos dados 
Ou a maneira pela qual estes dados estão dispersos. Tais medidas também podem 
ter definidas para variáveis aleatórias, permitindo caracterizá-las de forma 
semelhante ao que é feito para um conjunto de dados qualquer. 


4.2 Medidas de Posição 


Se estamos numa parada de ônibus urbano e nos pedem alguma 
informação sobre a demora em passar um determinado ônibus, que diremos? 
Ninguém imagina que poderíamos dar como resposta uma tabela de fregiiências 
que pacientemente coletamos no último mês, ou ano! Tampouco, seria adequado 
presentar um modelo teórico pelo qual teríamos ajustado o comportamento da 
variável aleatória de interesse. Quem perguntou deseja uma resposta breve e 
rápida que sintetize a informação que dispomos e não uma completa descrição dos 
tados coletados ou da modelagem que porventura fizemos. 
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Nesta seção, definiremos medidas de posição ou medidas de tendência 
central para um conjunto de dados qualquer (população ou amostra) e, então, 
consideraremos as correspondentes definições para variáveis aleatórias. 


Note que o número de parafusos, em cada caixa, é um valor inteiro, porém, a 
média não precisa ser necessariamente um número inteiro. Para este exemplo, 
temos que, em média, as caixas contém 98,6 parafusos. 

Colocando os dados em ordem crescente, obtemos: 95, 96, 97, 98, 99, 99, 
100, 100, 100 e 102. Neste caso, como o número de elementos no conjunto de 
dados é 10, um número par, tomamos a mediana como sendo a média dos dois 
valores que ocupam a posição central. Temos 


Definição 4.1: Medidas de posição para um conjunto de dados 


Considere uma variável X com observações representadas por 
£1, £2, ... , Zn. A média desse conjunto é a soma dos valores dividida pelo número - 


total de observações. Isto é, 99 + 99 
mdop; = ——— = 99. 
n 2 
Zu zi z2 +e tEn i=l E imediato que o valor mais freqüente é 100 e assim, mOops = 100. O 
obs T n n 


As medidas de posição podem ser utilizadas em conjunto para auxiliar a 
Análise dos dados ou, em determinadas situações, uma pode ser mais conveniente 
do que a outra. Por exemplo, se um ou mais valores são muito discrepantes do que 
à geral das observações, a média será muito influenciada por este valor, tornando- 
à, assim, inadequada para representar aquele conjunto de dados. Se uma das 
unixas ao invés de 95 tivesse 45 parafusos, a média passaria de 98,6 para 93,6, 
Neste caso, como a mediana não é afetada por valores discrepantes, seu uso seria 
mais adequado para representar os dados. Por outro lado, para conjuntos de dados 


A mediana, representada por mdops, é O valor que ocupa a posição central. 


dos dados ordenados. 
A moda é dada pelo valor mais frequente e será denotada por mo». 
Se houver possibilidade de confusão, faremos menção à variável X 


representando a mediana e a moda por mdops( X) e moors (X) o 


Note que as definições acima também podem ser aplicadas quando o 
conjunto de dados já está organizado numa tabela de freqüência. Por exemplo, 


passa gom muitas observações, a mediana é difícil de ser calculada, uma vez que o 
para a média temos dn o E i 
processo de ordenação é custoso, mesmo com o uso de computadores. E ainda 
> #ðmum o aparecimento de distribuições multimodais, isto é, conjuntos de dados 
“NT; k à re x a Ar meNas 
o trens Eno É o ni que possuem mais de uma, moda. Como regra geral, Precisamos usar essas 
Tobs = — E = -a Ti Ti, Medidas com o cuidado de não distorcer informações e características dos dados 
pisti k E : 
l i aque estamos analisando. 


Em muitos casos, a variável de interesse não é observada diretamente e é 
uma função do conjunto original de dados. Assim, pode ser necessário considerar 
om valores originais multiplicados ou acrescidos de constantes para produzir. um 
novo conjunto de valores. Nos próximos exemplos, estudamos como as medidas 
de posição se alteram e veremos como podem ser obtidas a partir das respectivas 
medidas do conjunto original. 


e, assim, Tops pode ser pensada como a média dos k diferentes valores, ponderada 

pelas respectivas freqiiências relativas de ocorrência. De modo análogo também 
` A . . 

podemos obter, através da tabela de frequência, a mediana e a moda. 


Exemplo 4.1: Suponha que parafusos a serem utilizados em tomadas elétricas são 
embalados em caixas rotuladas como contendo 100 unidades. Em uma construção, 
10 caixas de um lote tiveram o número de parafusos contados, fornecendo os 
valores 98, 102, 100, 100, 99, 97, 96, 95, 99, 100. Para essas caixas, o número 
médio de parafusos será dado por 


98 + 102 + «+++ 100 — 986 -986. 
10 10 


Exemplo 4.2: Nas caixas de parafusos do Exemplo 4.1, vamos admitir um custo 
de e por parafuso e de e pela embalagem da caixa. Desejamos calcular as medidas 
de posição do custo total (T), definido como a soma dos custos dos parafusos e 
da embalagem. Iniciamos, calculando as novas medidas de posição apenas para o 
esto líquido por caixa (L), isto é, o custo dos parafusos contidos na caixa sem a 


Tobs = 
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embalagem. Temos, 


98c + 102c + --- + 100c _ 986c 


édic L = as = E . 
Média de Lob; 10 Ti 98,6 c 
Para a mediana segue que, 
99 99 
mdobs( L) = LEEN = 99c, 


e, sem maiores dificuldades, moops(L) = 100 c. Concluímos que a multiplicação | 


pela constante c resultou em que as novas medidas de posição são as antigas 
multiplicadas por c. 
Vamos incluir agora o custo da embalagem. As caixas custarão 


98c+e, 102c+e,..., 100c+e. 
Então, 


- (98c+e)+:::+ (100c+e) _ 986c+10e | 

tobs = rw is = 10 = 98,6c Þe 
É fácil ver que para a mediana mdos(T) =99c+e e que para a moda, 
mosps(T) = 100c + e. Dessa forma, o acréscimo por uma quantidade e teve o 
efeito de somar essa mesma constante às medidas de posição. O 


Exemplo 4.3: Foram coletadas 150 observações da variável X, representando o 
número de vestibulares FUVEST (um por ano) que um mesmo estudante prestou. 
Assim, foi observado que 75 estudantes prestaram vestibular FUVEST, uma única 
vez, e assim por diante. Os dados estão na tabela abaixo: 


Calculando as medidas de posição de X, obtemos 


0. LE OFANA Si fone 1 PA 
AR = Co o i , 


ç 
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[ 


ue mrsm 142 
a8, mda (X) = EST E ao; 


i 
y à 


f 
i a) p MOobs (X) Sl, 
(A 4 
Pode ser de interesse estudar o gasto dos alunos associado com as despesas do 
vestibular. Para simplificar um pouco a situação, vamos supor que se atribui, para 
tada aluno, uma despesa fixa de R$ 1300, relativa à preparação e mais R$50 para 
enda vestibular prestado. De posse dessas informações, vamos calcular as medidas 
ile posição da variável D: despesa com vestibular. Pela definição desta nova 
quantidade temos 


ID=50x X + 1300 | 


Logo, do cálculo que fizemos, vem imediatamente que 


dobs = 50 x 1,73 + 1300 = 1386,50; 


mdous(D) = 50 x 1,5 + 1300 = 1375; 


Moobs( D) = 50 x 1 + 1300 = 1350. O 
Exemplo 4.4: Um estudante está procurando um estágio para o próximo ano. As 
Companhias A e B têm programas de estágios e oferecem uma remuneração por 
20 horas semanais com as seguintes características (em salários mínimos): 


[Companhia [4 | 
25 [20 
LS[19 


Qual companhia é mais adequada? 

Inicialmente vamos discutir as informações fornecidas, supondo que o 
estudante terá seu salário "escolhido" de acordo com uma política salarial 
fesuimida na tabela anterior. A companhia A tem 50% dos seus estagiários 
tecebendo até 1,7 salários mínimos e o valor com maior frequência de ocorrência 
É 1,5. Como a média é 2,5 deve haver alguns poucos estagiários com salário bem 
Mais alto, isto é, valor alto de salário com fregiiência pequena de ocorrência. A 
eompanhia B tem as três medidas bem próximas indicando uma razoável simetria 
entro salários altos e baixos. A opção do estudante dependerá de sua qualificação. 
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Se ele for bem qualificado, deve preferir a companhia A, pois terá mais chance de 


obter um dos altos salários. Se tiver qualificação próxima ou abaixo dos outros 
estudantes, deve preferir a B que parece ter uma política mais homogênea de 
salários. 0 


Vamos, agora, descrever algumas medidas associadas às variáveis 
aleatórias que, como já mencionamos, serão correspondentes às medidas 
apresentadas para um conjunto de dados. 


Sabemos que a descrição completa do comportamento da variável | 


aleatória discreta é feita através da sua função de probabilidade. Assim sendo, é 
razoável pensar que, qualquer que seja a quantidade destinada a resumir esse 
comportamento, sua definição deverá envolver, de alguma forma, essa função de 
probabilidade. 

A medida mais popular é o valor esperado, ou simplesmente média, e 
representa o ponto de equilíbrio da distribuição de seus valores. Da mesma forma, 
como mencionado no caso de um conjunto qualquer de valores, o uso do valor 
esperado como síntese de toda a informação pode levar a distorções e 
interpretações equivocadas. Em especial, é possível construir uma função de 


probabilidade, com valores da variável muito diferentes uns dos outros, em que a - 


média não caracteriza o real comportamento da variável aleatória. A média junto 
com a moda e a mediana são medidas de posição ou de tendência central e são 
definidas a seguir. 

Suponha que os possíveis valores da variável aleatória sejam 
representados por £1, £2,...,%k, com correspondentes probabilidades 
Di, Pas ++. Pk 
Definição 4.2: Medidas de posição para variáveis aleatórias discretas 


A média, valor esperado ou esperança de uma variável X é dada pela 
expressão: 


k 
E(X) = E Ti Dir. 
i=1 


Uma notação alternativa é representar E(X) por ux ou simplesmente u, se não 
houver possibilidade de confusão. 
A mediana é o valor Md que satisfaz às seguintes condições 


P(X > Md) > 1/2 e P(X < Md) > 1/2. 
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Em algumas situações, as desigualdades são satisfeitas por qualquer valor num 
perto intervalo e, nesse caso, tomamos a mediana como o ponto médio do 


intervalo. . e 
A moda é o valor (ou valores) da variável que tem maior probabilidade de 


feorrência, representando-a por Mo, temos 
P(X = Mo) = max (p1, p>,*:*, Pk). O 

Exemplo 4.5: Considere a variável aleatória X com a seguinte função discreta de 
probabilidade: 

X | —-5 10 15 20 

pi| 0,3 0,2 04 01 
temos, 

u= mp = {— 5) x 0,3 + 10 x 0,2 + 15 x 0,4 +20 x 0,1 = 8,5. 


À moda é o valor com maior probabilidade e, portanto, segue que Mo = 15. Por 
putro lado, a mediana poderá ser qualquer número entre 10 e 15, pois, para 
he [10, 15], temos 


P(X<b>05e P(X 2 b) 2 0,5. 


Pela convenção adotada, tomamos Md = 12,5 (ponto médio do intervalo). O 


Observe que nem a mediana, nem a média precisam ser valores assumidos 
pela variável aleatória. No exemplo anterior, a média de X foi 8,5 e a mediana 
12,5; que são valores não assumidos pela variável aleatória. 

De modo similar ao ocorrido com as medidas de posição num conjunto de 
dados, a multiplicação ou a adição de constantes a uma variável aleatória faz com 
que suas medidas de posição fiquem multiplicadas ou acrescidas pelas mesmas 


eonistantes. 


Exemplo 4.6: Considere uma v. a. X com função densidade discreta dada por 


8 15 20 


Não é difícil verificar que u = 10,3; Md = 8 e Mo = 5. Se uma nova variável Y 
é obtida a partir de X através de Y = 5 X — 10, sua função de probabilidade será 
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Y] 0 15 30 65 90 
0,1 0,3 0,2 0,2 0,2 


O cálculo das suas medidas de posição pode ser feito pela definição. Temos 
Hy =0 x 0,1 +15 x 0,3 +--+ 90 x 0,2 = 41,5; 
Md(Y) = 30, pois é o único valor com P(Y > 30) > 0,5 e P(Y < 30) > 0,5; 
Mo(Y) = 15, pois é o valor com maior probabilidade. 


Estes mesmos resultados poderiam ser obtidos a partir das medidas de posição de 
X multiplicadas por 5 e subtraídas de 10. Isto é, 


Hy = 5x 10,3 — 10 = 41,5; 
Md(Y) = 5 x 8 — 10 = 30; 
Mo(Y) =5 x 5- 10 = 15. 
Esta propriedade facilita cálculos e pode ser bastante útil. =i 


Na Tabela 4.1, apresentamos as expressões para as medidas de posição 
para as duas situações estudadas: conjunto de dados e variável aleatória. i 


Tabela 4.1: Medidas de tendência central. 
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Ressaltamos que, no caso de conjunto de dados, usamos letras minúsculas 
para denotar as referidas medidas, enquanto, no caso de variáveis aleatórias, 
Utilizamos letras maiúsculas. Como mencionamos, a interpretação é feita de modo 
similar nos dois casos. 


lixcrcícios da Seção 4.2: 


|, Discuta quais medidas de posição seriam mais adequadas para os conjuntos de 
dados abaixo. Comente suas escolhas. 

a. Estão disponíveis dados mensais sobre a incidência de envenenamento por 
picada de cobra. Deseja-se planejar a compra mensal de antídoto. 

b. O número diário de usuários, entre 17 e 19 horas, de determinada linha de 
ônibus foi anotado. Pretende-se utilizar essa informação para dimensionar a 
frota em circulação 

c. Um fabricante de baterias deseja divulgar a durabilidade do seu produto e 
coleta a informação sobre a duração de 100 de suas baterias. 

d. Num vôo internacional uma companhia serve dois tipos de pratos no jantar: 
peixe ou frango. Um banco de dados contém os pedidos feitos nos últimos 
200 vôos. Pretende-se planejar o número de cada tipo a ser colocado à 
disposição dos passageiros. 


2, Vinte e cinco residências de um certo bairro foram sorteadas e visitadas por um 
entrevistador que, entre outras questões, perguntou sobre o número de 
televisores. Os dados foram os seguintes: 


2; 2, 2,9, 1, 2; 1, la l; 150; 1,2,2,2,2,93,1,1,3,1,2,1,0 62. A 
Organize os dados numa tabela de fregiiência e determine as diversas medidas 
de posição. 


4. Num experimento, 15 coelhos foram alimentados com uma nova ração e seu 
peso avaliado ao fim de um mês. Os dados referentes ao ganho de peso (em 
quilogramas) foram os seguintes: 


1,5; 1,6; 2,3; 1,7: 1,9; 2,0; 1,5; 1,8; 2,1; 2,1; 1,9; 1,8; 17: 2,5 e 2,2. f 


a. Utilizando os dados brutos, determine média, moda e mediana desse 
conjunto. 
b. Organize uma tabela de freqüência com faixas de amplitude 0,2 a partir de 


E 
L,o. 
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c. Calcule, a partir da tabela de freqiência e com o ponto médio como | 


representante de cada faixa, a média, a moda e a mediana. Comente as 
diferenças encontradas com o item (a). 


d. Se ao invés de 15, fossem 500 coelhos, qual seria o procedimento maia 


conveniente: o de (a) ou o de (c)? Ter acesso a computador faz diferença? 


4. Sendo X uma variável aleatória com função de probabilidade dada a seguir 
obtenha as medidas de posição u, Md e Mo. l 


Xl2 o a (z 
pi [1/3 1/3 1/3 


5. Para cada item abaixo, construa uma variável aleatória que atenda as condições 
indicadas. 


a. u = Md = Mo. 
b. u > Md=Mo. ` 
c. u < Md < Mo. 


6. Um atacadista recebe de vários fornecedores uma certa peça para revenda. A 
peça é produzida com material de qualidade diferente e, portanto, tem custo 
diferenciado. Levando em conta a proporção fornecida e o preço apresentado 
por cada fabricante, pode-se admitir que o custo de uma peça em reais 
escolhida ao acaso, é uma variável aleatória (C). Admita a seguinte função dé 
probabilidade para C: “ 


C | 1,00 1,10 1,20 1,30 1,40 | 
p| 02 03 02 02 01 L 


a. Determine as medidas de posição da variável C. 

b. Suponha que o atacadista revenda cada uma dessas peças acrescentando 
50% sobre o custo da peça, além de um adicional de R$0,10 pelo frete. 
Calcule as medidas de posição da variável preço de revenda. 


4.3 Medidas de Dispersão 


| Apesar das medidas de tendência central fornecerem uma idéia do 
comportamento das variáveis, elas podem esconder valiosas informações. Essas 
medidas podem não ser suficientes para descrever e discriminar diferentes 
conjuntos de dados. Por exemplo, um bairro nobre da capital paulista inclui uma 
das maiores favelas de São Paulo. O que podemos dizer da renda média do bairro? 
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Certamente os altos rendimentos de alguns residentes serão suficientes para fazer 
à média atingir um patamar comparável às melhores economias do mundo, porém 
à discrepância entre os diversos valores deve ser muito grande. O que podemos 
estar esquecendo é a variabilidade dos valores da variável e isto não é captado 
pela média e sim pelas medidas de dispersão. Por exemplo, para o conjunto de 
valores 0, 20 e 40 a média é igual a 20. O mesmo acontece com o conjunto 20, 
90 e 20. Os dois conjuntos têm valores bem diferentes, apesar de terem a mesma 
média. De fato, é fácil construir exemplos onde dois conjuntos de dados distintos 
possuem medidas de posição idênticas. Em muitas dessas situações existe 
diferença em relação à dispersão dos dados, isto é, quanto à maneira como os 
valores de cada conjunto se espalham. A fim de quantificar tal característica, 
vamos definir algumas medidas de dispersão. 


Definição 4.3: Amplitude de uma variável em um conjunto de dados - 


A amplitude, referente a uma certa variável, é definida como a diferença 
entre o maior e o menor valor do conjunto de dados. Será denotada por A. 0 


A amplitude só leva em conta dois valores de todo o conjunto e, assim, 
šeria mais conveniente considerarmos uma medida que utilizasse todas as 
observações. Uma idéia inicial é considerar o desvio de cada observação em 
relação a um ponto de referência e então tomar sua média. Caso a observação seja 
menor do que a referência, o desvio seria negativo, caso seja maior, positivo. A 
soma de tais desvios fará com que termos de sinais diferentes se compensem, 
podendo ocultar o efeito da variabilidade. Esta dificuldade é discutida no exemplo 
A seguir. 


Exemplo 4.7: Numa classe com 12 alunos de um curso de inglês, os alunos 
indicaram o número de outras línguas (além do português e inglês) que tinham 
alguma familiaridade. Os resultados ordenados foram os seguintes: 0, O, O, 0, 1,1, 
r, |, 1,2, Ze 4. Calculamos sem dificuldade a média e a mediana e obtemos 
os = 13/12 e mdobs = 1. 

O desvio de cada observação em relação à mediana é obtido pela 
expressão z; — mdops. Para o conjunto de dados acima temos: —1,—1,—1,—1, 0, 
(1,0,0,0,1,1 e 3. Se calculamos a média desses desvios obtemos 1/12. 
Notamos que valores negativos e positivos se compensam, diminuindo a média 
dos desvios e dando a falsa impressão de pequena variação. Um caminho 
alternativo seria tomar a média dos valores absolutos dos desvios acima, o que é 
denominado desvio mediano e definido por 
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ri Ly 9 
desvio mediano = E E |z: — mdops| = TE 
Uma outra maneira de calcular os desvios é em relação à média e, neste caso, a 
expressão a ser usada é x; — Tops. A soma desses desvios sempre dá zero se o 
cálculo for feito sem arredondamento e, portanto, a média deles também é sempre 
zero. Dessa maneira, essa medida não seria nada informativa sobre a dispersão 
das observações. Entretanto, podemos tomar os valores absolutos obtendo o 
desvio médio, que é definido como a média dos valores absolutos dos desvios em 
relação à média. Isto é, 


1 g2 57 
desvio médio = T 3 |i = Tops] = T o 


Os desvios mediano e médio utilizam a função módulo que, por suas 
características matemáticas, torna mais difícil o estudo de suas propriedades. 
Definimos a seguir uma nova medida de dispersão que utiliza o quadrado dos 
desvios em relação à média. 


Definição 4.4: Variância e desvio-padrão em um conjunto de dados 


. A variância, referente à variável X de um conjunto de dados, é definida 
por 


E 
= 2 
VaFobs = — X (xi = rd . 
n i=l 


Para manter a mesma unidade dos dados originais, é conveniente definirmos o ` 


desvio-padrão como sendo dpobs = «/Varops.. Se houver possibilidade de 
confusão, faremos menção à variável X, utilizando a notação varps (X). O 


À expressão apresentada na Definição 4.4 auxilia o leitor na interpretação 
da variância como uma medida de variabilidade. Entretanto, é possível obter uma 
expressão alternativa que facilita os cálculos. Fica como exercício ao leitor 
mostrar que: 


1 n ) 
; = 2 =2 
VAFobs = — Ti — Tobs - 
a 
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A vantagem de usar essa expressão alternativa é evitar a operação de subtração, 
que em muitos casos envolve decimais e torna-se muito trabalhosa. 


Exemplo 4.8: No Exemplo 4.1, foram fornecidas as quantidades de parafusos em 
10 caixas de um lote. Pelos valores observados, o maior número de parafusos foi 
102, ao passo que o menor foi 95. Logo, a amplitude será dada por 


Av = 1082 — 95 = 7. 


Para calcular a variância, utilizamos o valor da média, 98,6; já obtido no 
referido exemplo. Para auxiliar nos cálculos, podemos construir as tabelas abaixo. 
Utilizando a expressão da Definição 4.4, é necessário criar colunas com os 
valores £i — Toos € (m— Tois enquanto que a expressão alternativa requer 


apenas uma coluna com os valores z2. 


Alternativa: 


9604 


DT [8] 


Segue da Definição 4.4 e da tabela correspondente que: 


40,4 


1 n = 2 o o 
VAFobs = E 2 Ami E Tobs) = ETE = 4,04. 


Pela expressão alternativa, temos 


iga a ` 97260 J 
=S} “— Top, = ———— — (98,6) = 4,04. 
Va obs Ti Tobs 10 ( ) / 
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Naturalmente, qualquer que seja a expressão utilizada, o desvio padrão é dado por 


dpops = 4,04 = 2,01. O 


Para o caso em que o conjunto de dados está organizado numa tabela de 
frequência, o cálculo da variância será modificado de forma conveniente com a 
ponderação dos desvios pelas respectivas frequências. Aproveitamos o próximo 
exemplo para ilustrar essa situação, além de discutir o efeito, sobre a variância, da 
multiplicação ou adição de constantes aos valores da variável de interesse. 


Exemplo 4.9: No Exemplo 4.3, definimos a quantidade D, despesa no vestibular, 
obtida a partir de X pela expressão D = 50 x X + 1300, com X indicando o 
número de vestibulares prestados. Para efeitos didáticos, antes de obter a 


variância de D, vamos calcular a variância de X e da quantidade auxiliar 


Y = 50 x X. Iniciamos por ampliar a tabela de fregiência de X, para incluir 
também os valores de Y e D. Temos, 


PIRAENES 


As médias de X e D já foram calculadas no Exemplo 4.3 e a de Y segue 
sem dificuldade. Assim, Tops = 1,73; Yoppy = 86,5 € dobs = 1386,5. Para calcular a 
variância de X, via tabela de freqüência, adaptamos as expressões apresentadas 
anteriormente obtendo: 


1 4 
Varobs( X) DA kF Ni (x; = T , 


ou, na forma alternativa, 


1 4 
Var obs( X) = 150 > Ni g a Eis s 
1=1 


Optando por utilizar essa última expressão temos o seguinte cálculo: 


varop(X) = (75 x 1? +47 X 2? +21 x 3? +7 x 4?) — 1,73? = 0,767. 


150 
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De modo análogo, escrevemos 


varons (Y) = — (75 x 50? + ---+ 7 x 200°) — 86,5? = 1917,5; 


H 


varos (D) = ET (75 x 1350? + -+ + 7 x 1500?) — 1386,5? = 1917,5. 
Note que a variável D nada mais é do que Y acrescido de 1300. Não 
Əbstante, suas variâncias são iguais, isto é, o acréscimo de constante não alterou a 
variância. Esse resultado é de certa forma previsível, pois a adição ou subtração 
de constante corresponde a uma translação dos valores dessas quantidades, não 
úilterando sua variabilidade relativa. Por outro lado, Y é igual a 50 vezes a 
variável X e sua variância é 50? vezes a variância de X. Esse resultado se explica, 
pois a multiplicação por constante altera a distância entre os valores da variável 
original e, pela fórmula da variância, o efeito será pelo quadrado da constante. O 


Exemplo 4.10: O salário de professores do ensino fundamental da rede privada 
está sendo estudado. A tabela abaixo apresenta os valores, em salários mínimos, 
gbtidos em um levantamento numa certa cidade. Desejamos calcular a média e a 
variância desse conjunto de dados. 


= CE 


Como a variável está apresentada em faixas de valores, não temos os valores 
efetivamente observados e, portanto, não podemos aplicar as fórmulas da média e 
da variância. Para contornar essa situação e obter resultados aproximados para as 
medidas desejadas, tomamos como representante de cada faixa seu ponto médio. 
Com essa alternativa, o cálculo é feito nos mesmos moldes das variáveis 
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quantitativas discretas. Assim, 


Toba = A a e Ee E, | 4,97. 


1 pp R 
Her O 70 


Para a variância: 
1 = In 
Varas = z5 rui — Tp, = 29,71 — 24,72 = 4,99. 


Para um salário mínimo de R$ 180, a média e a variância dos salários em reais 
seriam, respectivamente, 180 x 4,97 = 894,60 e 180? x 4,99 = 161.676,00. 2O 


Vamos, agora, apresentar as medidas de dispersão para variáveis 
aleatórias. Como já mencionamos no início da seção, as medidas de posição não 
“explicam tudo" que está acontecendo, seja num conjunto de dados ou com 
variáveis aleatórias. O próximo exemplo reforça essa idéia para o caso de 
variáveis aleatórias. 


Exemplo 4.11: Uma pequena cirurgia dentária pode ser realizada por três 
métodos diferentes cujos tempos de recuperação (em dias) são modelados pelas 
variáveis X1, X2 e X3. Admita que suas funções de probabilidade são dadas por 


X| 0 4 5 6 10 
7: |0,2 0,2 0,2 0,2 0,2, 


Ml 5 9 X| 4 5 6 
- e è 
pi [1/3 1/3 1/3 » | 0,3 04 0,3 


O valor O na variável X; pode ser interpretado como recuperação no mesmo dia 
da cirurgia. Na tabela abaixo, apresentamos o valor esperado, a mediana e a moda 
para cada uma das três variáveis. Vale ressaltar que a moda nem sempre é única e 
para construir a tabela a seguir, escolhemos o valor 5 como representante dos 
valores modais de X; e X3.. 
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+ Se apenas a informação dos valores esperados, medianas e modas 
estivesse disponível, concluiríamos por uma perfeita harmonia de desempenho 
entre os vários métodos. Entretanto, como podemos observar pelas distribuições 
de probabilidade, esse não é o caso. Por serem medidas de tendência central, as ' 
três medidas acima não captaram a variabilidade existente em cada método. O 


Como mencionamos para as variáveis em um conjunto de dados, podemos 
ter várias maneiras de medir a dispersão. Para o caso de variáveis aleatórias 
vamos definir apenas a variância, que é a medida mais utilizada. 


Definição 4.5: Variância de uma variável aleatória discreta 


Seja X uma variável aleatória com P(X; = z;) = p;, i = 1,2,...,k e 
média u. A variância de X é a ponderação pelas respectivas probabilidades, dos 
desvios relativos à média, elevados ao quadrado, isto é, 


Muitas vezes, denotamos a variância por o? e, se houver possibilidade de 


confusão, usamos o4. Extraindo a raiz quadrada da variância obtemos o desvio- 
padrão que é representado por o ou ox. 0] 


Exemplo 4.12: Retomando o exemplo anterior, calculamos as variâncias dos 
tempos de recuperação para cada método. Temos, 


Var(X1) = (0 — 5)? x 0,2 + (4 — 5)? x 0,2 + -+ + (10 — 5)? x 0,2 = 10,40. 
De modo análogo, obtemos: 
Var(X2) = 10,67 e Var(X) = 0,60. 


Dessa forma, utilizando-se os métodos 1 e 2 (variáveis X; e X2), teremos maior 
variabilidade no tempo de recuperação. O 


A variância definida anteriormente pode ainda ser considerada como o 
valor esperado de uma nova variável aleatória, o desvio ao quadrado. Isto é, 


Var(X) = EX — p)’], 


n qual pode ser convenientemente reescrita na seguinte forma 
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k 
Var(X) = E(X’) - P =} piz} = p. 
i=1 


Esta última expressão é bastante útil e, para não criar confusão, explicitamos os 
seus termos. O termo E(X?) é o valor esperado da variável aleatória X?, ao passo 
que ju? indica o quadrado do valor esperado de X. O próximo exemplo recalcula 
as variâncias do exemplo anterior, através da expressão acima. 


Exemplo 4.13: A partir das funções de probabilidade de X1, Xə e X; 


apresentadas no Exemplo 4.11, obtemos 


X? | 0 16 25 36 100 
0,2 02 


As funções de probabilidade acima foram obtidas a partir de operações simples, 
como por exemplo, 


P(X? =16)= P(X =-—4 ou Xı =4)= P(X, = 4), 


uma vez que X; não assume valores negativos. 
Temos então que “ 


E(X?) = 0x 0,2+16 x 0,2 + --- + 100 x 0,2 = 35,40. 


Então, 
Var(X1) = 35,4 — 5º = 10,40. 
De modo análogo, obtemos E(X3) = 35,67 e E(X2) = 25,60; resultando 
em Var(X>) = 10,67 e Var(X3) = 0,60. O 


A Tabela 4.2 auxilia o estabelecimento da correspondência entre as 
medidas de dispersão obtidas a partir de um conjunto de dados e aquelas 
calculadas para variáveis aleatórias. Em seguida, na Tabela 4.3, apresentamos um 
resumo das propriedades da média e da variância discutidas até agora. 


4.3 Medidas de Dispersão MH 


Tabela 4.2: Medidas de dispersão. 


Vamos concluir esta seção apresentando, através de exemplos, os cálculos 
do valor esperado e da variância de alguns dos modelos teóricos que foram 
definidos no capítulo anterior. 


Exemplo 4.14: Seja X com distribuição Bernoulli de parâmetro p. Temos 
E(X)=0x(1l-pD)+Ixp=p e 
E(X?) =0 x (1-p)+l? xp=p. 


Lopo, a variância será 


Var(X)=p- p =p(1-p). oO 
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Exemplo 4.15: Para uma variável aleatória X com distribuição Binomial de 
parâmetros n e p, temos 


E Þ É tm “5 gr a 

n | = 
mono? on 
E > E yr Con 


Substituindo nesta última expressão, k — 1 por j e, em seguida n— 1 por r, 
obtemos 


PO) =mD(, Jr (1-pUi=nop, 


uma vez que a somatória é igual a 1, pois corresponde a somar todas as 
probabilidades de uma variável Binomial com parâmetros r e p. 

A variância será calculada mais facilmente no próximo capítulo, quando 
apresentaremos propriedades da variância da soma de variáveis aleatórias 
independentes. Por ora, só informamos que seu valor é np(1 — p). O 


Exemplo 4.16: Considere a variável aleatória Y com modelo Uniforme Discreto 
entre os valores 1 e k. Aplicando a definição de esperança matemática € 
utilizando a conhecida expressão para a soma de uma progressão aritmética, 
temos . 


o. k(ktI(2k+1) 
329 EDAT, 


então, 
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Var(Y) = E(Y?) — E’ (Y) 
k 
k+1 
2 
=)IPWV=)-(—— 
rrr- (E) 
Lea ph+l 
Ro Er 
_1 k(k+1)\(2k+1) (k+1)? 
k 6 4 
<P 1 
— 22 
m 


Para se calcular o valor esperado e a variância, no caso dos modelos de 
Poisson, Geométrico e Hipergeométrico, são necessárias técnicas um pouco mais 
ëlaboradas. Optamos por não apresentá-las aqui, tendo em vista o objetivo desse 
texto e, para o leitor interessado, indicamos o livro de Mood, Graybill e Boes 
(1974). Na Tabela 4.4 apresentamos os valores esperados e as variâncias para 
todos os modelos discutidos no capítulo anterior. 


Tabela 4.4: Modelos discretos- valor esperado e variância. 
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Exercícios da Seção 4.3: : a É ea . 
jogador ganhou menos o pagamento inicial (prejuízo é lucro negativo). 
I. Você está indeciso em comprar uma televisão e decide avaliar algumas Determine média, moda, mediana e variância dessa variável. 


informações estatísticas, fornecidas pelo fabricante, sobre a duração (em 


horas) do tubo de imagem. 


û, Numa certa cidade, o número de crianças em idade escolar, em famílias com 4 
filhos, é uma variável aleatória modelada pela Binomial com parâmetros n = 4 
ce p = 0,6. Para cada filho em idade escolar, um projeto de apoio à educação 
paga 1 salário mínimo para a família. Calcule a média e a variância do custo 
desse projeto por família. E E 


Fa 


8000 | 8200 | 8000 
9000 | 7000 
[Desvio Padrão | 600 | 150 


Com que marca você ficaria? Justifique. 


© 


~ 


4.4 Exercícios 


|, Um certo cruzamento tem alto índice de acidentes de trânsito, conforme pode 
ser constatado em uma amostra dos últimos 12 meses: 5,4,7, 8, 5, 6,4, 7,9, 
7,6 e 8. Determine a média e a variância do número de acidentes mensais 
nesse local. 


2. A pulsação de 10 estudantes no início de uma prova de estatística foram as 
“seguintes (em batimentos por minuto): 80, 91, "84, 86, 98, 88, 80, “89,585 e 
86. Calcule a média e a variância desse conjunto de dados. i 

3. Num estudo sobre consumo de combustível, 200 automóveis do mesmo ano e 
modelo tiveram seu consumo observado durante 1000 quilômetros. A 
informação obtida é apresentada na tabela abaixo em km/litro. 


| Faixas | Freqüência | 


Determine o desvio padrão do consumo. 


2. lstudando uma nova técnica de sutura, foram contados os dias necessários para 
a completa cicatrização de determinada cirurgia. Os resultados de 25 pacientes 
foram os seguintes: 6, 8, 9, 7,8, 6, 6, 7, 8, 9, 10, 7,8,10,9,9,9,7,6, MR RE 
10 e 11. Organize os dados numa tabela de fregiiência e calcule a média e a 
variância. 


3, Uma amostra de vinte empresas, de porte médio, foi escolhida para um estudo 
sobre o nível educacional dos funcionários do setor de vendas. Os dados 
coletados, quanto ao número de empregados com curso superior completo, são 
apresentados abaixo. 


[Empresa ppa ee e pop 
[ No. Funcionários [1/0 [o[3[o[1[1[2[2[2 [01 


[No Funcionários | 2 [0[2[0[1[1[2/3/2] 

a. Organize uma tabela de frequência e calcule média, moda e mediana. 

b. Determine o desvio padrão. 

c. As empresas pretendem incentivar o estudo dos seus funcionários 
oferecendo um adicional de 2 salários mínimos para cada funcionário com 
curso superior. Qual será a despesa média adicional nessas empresas? 


4. Num certo bairro da cidade de São Paulo, as companhias de seguro 
estabeleceram o seguinte modelo para o número de veículos furtados por 
semana: 


Furtos 0 1 2 3 4 
Pi 1/4 1/2 1/8 1/16 1/16 


Calcule a média e a variância do número de furtos semanais desse bairro. 


5. Num jogo de dados, um jogador paga R$5 para lançar um dado equilibrado e 
ganha R$ 10 se der face 6, ganha R$5 se der face 5 e não ganha nada com as 
outras faces. Defina a variável luçro por jogada como sendo o saldo do que o 


C 


4. As notas finais de estatística para alunos de um curso de Administração foram 
as seguintes: 7,5,4,5,0,9,8,4,5,4,06,4,5,6,4,6,6,3,8,4,5,4,5,5€6. 
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6. 


7. Foram anotados os níveis de colesterol (em mg/100ml) para trinta pacientes de 
uma clínica cardíaca. As medidas se referem a homens entre 40 e 60 anos de 
idade que foram à clínica fazer um check-up. 


. Um hospital maternidade está planejando a ampliação dos leitos para recém 
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a. Determine a mediana e a média. 
b. Separe o conjunto de dados em dois grupos denominados aprovados, com 


nota pelo menos igual a 5, e reprovados para os demais. Compare a 
variância desses dois grupos. 


nascidos. Para tal, fez um levantamento dos últimos 50 nascimentos, obtendo a 
informação sobre o número de dias que os bebes permaneceram no hospital, 
antes de terem alta. Os dados, já ordenados, são apresentados a seguir: 1, 1, 1, 
2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4, 
4,4,4,4,5,5,5,5,5,5,6,7,7,8€ 15. 
a. Organize uma tabela de fregiiência. 
b. Calcule média, moda e mediana. 
c. Determine o desvio padrão. 
d. Dentre as medidas de posição calculadas em (b), discuta quais delas seria 
mais adequadas para resumir esse conjunto de dados. 
e. Você identifica algum valor excepcional dentre os que foram observados 
Se sim, remova-o e recalcule os itens (a) e (b). Comente as diferença 
encontradas. 


O departamento de atendimento ao consumidor de um concessionária d 

veículos recebe, via telefone, as reclamações dos clientes. O número d 

chamadas dos últimos 30 dias foram anotados e os resultados foram: 3, 4, 5, 4, 

4,5,6,9,4,4,5,6,4,3,6,7,4,5,4,5,7,8,8,5,7,5,4,5,706 

a. Construa uma tabela de fregiiência. 

b. Calcule a média e o desvio padrão. 

c. Admitindo que cada telefonema acarreta serviços sob a garantia avaliados 
em R$50 por chamada, calcule a média e o desvio padrão das despesas 
oriundas do atendimento ao consumidor. 


T60 | 160 


178 | 181 | 181 | 182 | 185 | 186 | 194 | 197 | 199 


dd lxercícios 117 


Paciente 
Colesterol 


206 218 


à. Calcule a média, a moda, a mediana e a variância a partir da tabela de dados 
brutos. 

b. Organize os dados em uma tabela de frequência com faixas de tamanho de 
10 a partir de 160. 

é, Refaça o item (a) usando a tabela de freqüência obtida em (b). 

d. Comente as diferenças encontradas entre os valores das medidas calculadas 


em (a) e (c). 
O tempo, em horas, necessário para um certo medicamento fazer efeito é 
apresentado abaixo: 


0,21 2,71 2,12 2,81 3,30 0,15 0,54 3,12 0,80 1,76 
1,14 0,16 0,31 0,91 0,18 0,04 1,16 2,16 1,48 0,63 


ñ. Calcule a média e a variância para o conjunto de dados. 

b. Construa uma tabela de fregiiência para classes com amplitude de 0,5 hora, 
começando do zero. 

& Suponha que o conjunto original de dados foi perdido e só dispomos da 
tabela construída em (b). Utilizando alguma suposição conveniente, 
recalcule a média e a variância e comente as possíveis diferenças 
encontradas. 


Eistudando-se o número de acertos em 100 lances-livre de bola ao cesto, uma 
Amostra com 20 jogadores forneceu os seguintes resultados: 68, 73, 61, 66, 96, 
79, 65, 86, 84, 79, 65, 78, 78, 62, 80, 67, 75, 88, 75 e 82. Agrupe as 
observações em intervalos de comprimento 5 a partir de 60 e, usando alguma 
suposição adicional, determine a média e a variância do número de acertos em 
100 arremessos. 


Ho, O Sindicato dos Engenheiros do Estado de São Paulo está estudando o 
impacto do estágio na obtenção de bons empregos. Dentre os engenheiros 
recém formados e com empregos considerados bons, foi sorteada uma amostra 
ë observado o número de anos de estágio anteriores à formatura. 

à. Calcule a média e a variância. 

b, Para efeito de análise, decidiu-se desprezar os valores que se distanciassem 
da média amostral por mais de dois desvios-padrão, isto é, só serão 
considerados os valores no intervalo Tops + 2 dpops. Recalcule o item (a) e 
comente os resultados. 
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a. Determine a média e a variância do número de interrupções semanais. 

b. O Governo Federal aplica uma multa de 10 mil reais por semana, se há pelo 
menos uma interrupção no fornecimento. Calcule a média e a variância do 
valor das multas aplicadas por semana. 

c. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários 

setores, decorrentes da falta de energia e atribuiu um valor total de 900 mil 

4 3 reais para ser ressarcido pela companhia responsável pelo fornecimento de 


T 

359 eletricidade, referente ao período de 50 semanas. Qual seria o prejuízo 

[6 | 168 | médio por semana? 

d. Nesse período, qual será a média e a variância do desembolso semanal da 
companhia, incluindo multa e ressarcimento de prejuízo? 


11. Na linha de produção de uma grande montadora de veículos, existem 7 
verificações do controle de qualidade. Sorteamos alguns dias do mês e 
anotamos o número de "OKs" recebidos pelos veículos produzidos nesses dias, 
isto é, em quantos dos controles mencionados o automóvel foi aprovado. 


13. O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto 
à direção da escola com vistas à melhoria das salas de informática. Para tal, fez 
uma enquete com todos os alunos e perguntou sobre o número de 
computadores que cada um tinha na sua residência. 


a. Determine média, moda e mediana do número de aprovações por automóvel 
produzido. 

b. Calcule a variância. 

c. Crie uma nova variável Reprovações, indicando o número de verificações 
não "OKs" no veículo. Determine média, moda, mediana e variância dessa 
variável. f . 

d. Cada reprovação implica em custos adicionais para a montadora, tendo em 
vista a necessidade de corrigir o defeito apontado. Admitindo um valor 
básico de R$ 200 por cada item reprovado num veículo, calcule a média e a 
variância da despesa adicional por automóvel produzido. 


12. O órgão do Governo Federal encarregado de fiscalizar a distribuição de 
energia elétrica tem acompanhado o número semanal de interrupções de 
fornecimento numa certa cidade. Os dados, referentes às últimas 50 semanas, 
consideraram apenas as interrupções que ultrapassaram 3 horas e são 
apresentados na tabela abaixo. 


a. Obtenha a média e a variância. 
b. O Centro Acadêmico argumenta que o ideal é ter uma média de 1 
computador por aluno, juntando os 20 da sala de informática da faculdade 
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11. Na linha de produção de uma grande montadora de veículos, existem 
verificações do controle de qualidade. Sorteamos alguns dias do mês | 
anotamos o número de "OKs" recebidos pelos veículos produzidos nesses di 
isto é, em quantos dos controles mencionados o automóvel foi aprovado. 


[6 [os | 


a. Determine média, moda e mediana do número de aprovações por automóv 
produzido. 

b. Calcule a variância. 

c. Crie uma nova variável Reprovações, indicando o número de verificaç 
não "OKs" no veículo. Determine média, moda, mediana e variância des 
variável. , 

d. Cada reprovação implica em custos adicionais para a montadora, tendo € 
vista a necessidade de corrigir o defeito apontado. Admitindo um val 
básico de R$ 200 por cada item reprovado num veículo, calcule a média @ 
variância da despesa adicional por automóvel produzido. 


12. O órgão do Governo Federal encarregado de fiscalizar a distribuição 
energia elétrica tem acompanhado o número semanal de interrupções 
fornecimento numa certa cidade. Os dados, referentes às últimas 50 semani 
consideraram apenas as interrupções que ultrapassaram 3 horas e & 
apresentados na tabela abaixo. 
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Inierrupções 


n. Determine a média e a variância do número de interrupções semanais. 

b. O Governo Federal aplica uma multa de 10 mil reais por semana, se há pelo 
menos uma interrupção no fornecimento. Calcule a média e a variância do 
valor das multas aplicadas por semana. 

¢. A Prefeitura dessa cidade fez um levantamento dos prejuízos, nos vários 
setores, decorrentes da falta de energia e atribuiu um valor total de 900 mil 
reais para ser ressarcido pela companhia responsável pelo fornecimento de 
cletricidade, referente ao período de 50 semanas. Qual seria o prejuízo 
médio por semana? 

(|, Nesse período, qual será a média e a variância do desembolso semanal da 
companhia, incluindo multa e ressarcimento de prejuízo? 


4, O Centro Acadêmico de uma faculdade pretende iniciar uma campanha junto 


h direção da escola com vistas à melhoria das salas de informática. Para tal, fez 
ma enquete com todos os alunos e perguntou sobre o número de 
vomputadores que cada um tinha na sua residência. 


[0 | 56 | 
Do IO | as i 
O 3 E] 
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f Obtenha a média e a variância. 
b. O Centro Acadêmico argumenta que o ideal é ter uma média de 1 
computador por aluno, juntando os 20 da sala de informática da faculdade 


e 


N 


o 
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com os que os alunos têm em casa. Quantos computadores precisariam ser 
acrescentados à sala para atender o Centro Acadêmico? 


14. Duas moedas estão sobre a mesa, uma delas tem duas caras e a outra tem. 


probabilidade igual de cara e coroa. Sorteamos, ao acaso, uma dessas moedas e 
a lançamos duas vezes. Seja X a variável aleatória que conta o número de 
caras nesses dois lançamentos. Qual é a média de X? 


15. Num teste de digitação, o tempo em minutos (T) que os candidatos levam. 


para digitar um texto é modelado, de forma aproximada, pela seguinte funçã 
de probabilidade: 


T| 3 4 5 6 7 8 9 


0,1 0,1 0,2 0,2 0,2 01 0,1 


O candidato recebe 4 pontos se terminar a digitação em 9 minutos, 5 se, 


terminar em 8 minutos e assim por diante. Determine a média e a variância do 
número de pontos obtidos no teste. 


16. A função de probabilidade da variável X é P(X =k)=1/5 par 
k = 1,2,:-:,5. Calcule E(X) e E(X?) e, usando esses resultados, determine 
E((X + 3)?] e Var(3X — 2). 


17. Estatísticas obtidas junto às assistências técnicas indicam que a bomba de 
água de uma certa lavadora só pode apresentar defeitos após 4 anos de uso, 
Admita que nos próximos 6 meses, após esse tempo, um mal funcionament 
tem probabilidade 0,10 de ocorrer e, caso ocorra, terá 0,5 de probabilidade de 
ser recuperável. O reparo, que só pode ser feito uma vez, tem o preço de R$ 10, 
enquanto uma bomba nova custa R$30. Determine a média e a variância d 
gasto com essa peça em 4,5 anos de uso. 


18. Os alunos do curso de estatística têm um time de futebol que não é dos 
melhores. O cartola que administra o time paga um prêmio de vitória por 
partida de um sorvete por jogador, acrescentando mais um sorvete por saldo d 
gols maior que 1 (saldo de gols é a diferença entre gols feitos e sofridos), 
Admita que a função de probabilidade dos diversos saldos é a seguinte: 


= e3 e DO a oa 
0,1 0,3 0,3 0,1 0,1 0,05 0,05 


Saldo de gols 
Pi 

Qual é a despesa média do cartola com cada jogador por partida? E com os 11 

"craques"? 
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19. Uma peça produzida por uma máquina pode receber do controle de qualidade 


três classificações: boa, defeituosa ou recuperável, com as seguintes 
probabilidades, 0,5; 0,2 e 0,3, respectivamente. Suponha que sejam vendidas a 
R$ 100, R$10 ou R$50 conforme forem boas, defeituosas ou recuperáveis, 
respectivamente. Se duas peças, escolhidas ao acaso, são vendidas, qual é o 
valor médio da venda? 


20, O tempo de duração em horas de uma lâmpada especial foi modelado por uma 


variável aleatória X com a seguinte função de probabilidade: 


/ 


0,1 01 02 04 01 01 


Cada lâmpada custa ao fabricante R$ 10, mas se sua duração for inferior a 6 
horas ele se compromete a indenizar o comprador com R$ 15. Qual deve ser o 
preço de cada lâmpada para o fabricante obter um lucro médio por lâmpada de 
R$ 20? 


21, Uma concessionária tem disponível, para um certo automóvel, os modelos S, 


CL e GL com duas versões de combustível, álcool ou gasolina. Com motor a 
úlcool os preços são 30, 35 e 40 mil reais para os modelos S, CL e GL, 
respectivamente. Esses preços são 10% superiores se o combustível for 
gasolina. A procura por carros a álcool é de 30% e a gasolina 70%. Qualquer 
que seja o combustível escolhido há igual preferência entre os modelos. 
Calcule a função de probabilidade do preço desse automóvel e obtenha sua 
média e variância. 


22, Num cassino, um jogador lança dois dados, cujas probabilidades são 


proporcionais aos valores das faces. Se sair soma 7, ganha R$ 50, se sair soma 
| |, ganha R$ 100 e se sair soma 2, ganha R$ 200. Qualquer outro resultado ele 
não ganha nada. Qual é o ganho médio do jogador? 


24, Uma indústria pretende comprar 3 lotes de peças que são produzidas por dois 


fornecedores, A e B. Ela inicia, comprando de um dos fornecedores escolhido 
do acaso e, se ficar satisfeita com o material entregue, compra o próximo lote 
do mesmo fornecedor. Se não ficar satisfeita, troca o fornecedor. Admita que 
para cada lote o índice de satisfação é de 80% e de 70% para A e B, 
respectivamente. Calcule a média e a variância do número de lotes fornecidos 
por A. 
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24. A experiência de diversas companhias de resgate de navios naufragados indica 
que a probabilidade de um resgate ser bem sucedido na primeira tentativa é de 
0,6; caindo para a metade a cada nova tentativa. Uma empresa de resgate tem 
como norma não realizar mais de três tentativas e cobra 50 mil reais para 
iniciar os trabalhos e mais 10.000 x (k — 1) reais, com k sendo o número de 
tentativas. 

a. Qual o custo médio dos serviços dessa empresa? 


b. Se um navio resgatado pode render ao proprietário 65 mil reais, é. 


interessante para ele contratar essa empresa? Justifique. x 


25. Suponha que a demanda por certa peça, numa loja de autopeças, siga O 
seguinte modelo: 
a 2¥ 


P(X = E) = at =1,2,9,4. 


a. Encontre o valor de a. 
b. Calcule a demanda esperada. 
c. Qual é a variabilidade da demanda? 


26. Numa indústria farmacêutica, uma máquina produz 100 cápsulas por minuto, 
A máquina está regulada de modo que no máximo 5% das cápsulas não 
contenham remédio e, assim, sejam consideradas defeituosas. 

a. Se as cápsulas são acondicionadas em vidros com 20 unidades, qual q 
probabilidade de um vidro apresentar no máximo 2 cápsulas com defeito? 

b. Qual o número esperado de cápsulas com defeito, por vidro? 

c. Qual o número esperado de cápsulas com defeito por minuto de produção? 


27. Um fotógrafo negocia com o jornal o seguinte trato: ele submete algumas 
fotos semanalmente e por cada foto publicada, ganha R$50. Se a foto não for 
publicada, não ganha nada. Nesta semana 4 fotos são submetidas com cada 
uma tendo probabilidade 0,60 de ser publicada, independentemente da demais, 
a. Qual a probabilidade que o fotógrafo tenha pelo menos duas fotos 
publicadas esta semana? 

b. Calcule a distribuição de probabilidade de Y: montante que o fotógrafa 
recebe esta semana; 

c. Calcule o ganho médio do fotógrafo nesta semana. 


28. Admita que, em cada corrida de Fórmula 1, o motor tem 0,4 de probabilidade 
de quebrar, independentemente das corridas anteriores. Suponha que a equipe 
encerrará sua participação no tornéio quando o motor quebrar pela primeira 
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vez. Se o ganho acumulado da equipe (em milhares de reais) é 50€, sendo Co 

número de corridas completadas por esse motor antes de quebrar, calcule: 

a. Qual a probabilidade da equipe completar 8 corridas? E de participar de 8 
corridas? 

b. Quanto receberá em média essa equipe durante sua "vida" em corridas? 


29, Um vendedor de cachorro quente trabalha na porta do Estádio do Morumbi 
em dias de jogo. Ele pode deixar preparado 5, 6 ou 7 dúzias de sanduíches que 
custam a ele R$5 a dúzia. Sabe-se que a procura do cachorro quente (X), no 
seu ponto, é uma variável aleatória com a seguinte função: de probabilidade: 


x/4“ 5 6 7 
p; | 0,2 0,3 0,3 0,2 


Sabe-se que cada dúzia de sanduíche é vendida a R$ 12 e os sanduíches não 
vendidos vão para um canil que paga R$2 pela dúzia. Qual é o número de 
dúzias de sanduíches que devem ser preparadas de modo a maximizar o lucro 
médio do vendedor? 


J0, Uma floricultura vende rosas, cravos e jasmins com lucro de, respectivamente, 
R$ 10, R$ 12 e R$ 15 por dezena. Observa-se que a procura é igual para as três 
flores. Se o estoque do dia não for vendido, a floricultura tem um prejuízo 
(lucro negativo) de, respectivamente, R$ 5, R$7 ou R$ 10 com cadædezena de 
rosas, cravos ou jasmins. Se a floricultura dispõe de duas dezenas de cada flor 
à três clientes visitam a floricultura sucessivamente e compram uma dezena 
cada um. Fazendo alguma suposição adicional que seja conveniente, determine 
© lucro esperado da loja. 


4, Repita o problema anterior, se a procura por rosas e cravos forem iguais e 
corresponderem ao dobro da procura por jasmins. 


43, Para um exame com 25 questões do tipo certo-errado, um estudante sabe a 

tesposta correta de 17 questões e responde as demais "chutando". 

i Calcule a probabilidade dele acertar pelo menos 90% das respostas. . 

b, Determine a média e a variância do número de acertos. 

& Suponha que nesse mesmo exame, um outro estudante saiba a resposta 
correta para 15 questões e tenha probabilidade de acerto nas demais de 0,7. 
Qual dos estudantes você espera que tenha melhor desempenho? 

il. Nas mesmas condições do item (c), qual dos estudantes terá desempenho 
mais homogêneo? 
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33. (Use o computador) Usando a Tabela 1.1 do Capítulo 1: 
a. Obtenha as medidas de posição e de variabilidade para o Peso e a Altura. 
b. Compare, através de medidas de posição e de variabilidade, o peso e a altura 
dos alunos das turmas A e B. Comente as diferenças em relação ao item (a). 
c. Com respeito à variável TV, alunos e alunas têm o mesmo comportamento? 
Justifique sua resposta com o uso de medidas resumo. 


34. (Use o computador) Considere as observações contidas no arquivo cancer.txt 
(ver Exercício 24, Capítulo 1). 


` 
a. Obtenha as medidas de posição e de variabilidade para as variáveis Idade e 


Glicose (GL). 
b. Repita o item (a) para cada tipo de diagnóstico. Compare as respostas 
obtidas. 


35. (Use o computador) Com os dados do Exercício 25, Capítulo 1: 

a. Para cada bloco, determine medidas de posição e de variabilidade para a 
área total do apartamento e para a área de cada cômodo. Você diria que 
existem diferenças nos apartamentos, dependendo do bloco? 

b. Construa uma tabela de frequência para a área total dos apartamentos do 
bloco I, utilizando faixas de valores convenientemente definidas. Suponha 
que um apartamento é escolhido ao acaso. Defina por X a variável aleatória 
área total do apartamento selecionado. Baseando-se na tabela de 
freqüência construída, qual é o valor esperado de X? Como este valor se 
compara com aquele observado no item (a) para a área total? Porquê 
deveriam ser iguais e se não são, qual é a razão? 


36. (Use o computador) As variáveis desse exercício fazem parte do arquivo 

aeusp.txt (ver Exercício 26, Capítulo 1). 

a. Obtenha as medidas de posição e de variabilidade para as variáveis Itrab e 
Renda. 

b. Repita o item (a) para cada uma das comunidades estudadas. Existem 
diferenças entre elas? 

c. Utilizando os valores da variável Serief, divida os moradores em três 
categorias: os que não pararam de estudar, aqueles que pararam até a 8º 
série e os demais. Para cada uma das categorias, obtenha as medidas de 
posição e a variância da variável Itrab. 

d. Baseado nas variáveis Sexo e Itrab, você diria que os homens começam a 
trabalhar mais cedo? 


Capítulo 5 


Variáveis Bidimensionais 


5.1 Introdução 


É muito comum estarmos interessados no comportamento conjunto de 
várias variáveis. Neste capítulo, vamos tratar de duas variáveis. Todavia, os 
conceitos discutidos aqui podem ser, em geral, expandidos para situações em que 
três ou mais variáveis são estudadas. Nesta primeira seção apresentamos, para 
variáveis em um conjunto de dados, a tabela de fregiiência conjunta e, para o caso 
de variáveis aleatórias, a função de probabilidade conjunta. A tabela de 
fregiiência conjunta também pode ser utilizada com variáveis qualitativas, 
conforme veremos nos exemplos. Nas seções subsegiientes, estudamos a 
associação entre variáveis e a obtenção de funções de variáveis aleatórias. 

As informações em um conjunto de dados, sejam elas referentes ao todo 

ou parte de uma população, quase sempre contêm observações multidimensionais, 
isto é, observações relacionadas a várias variáveis. Por exemplo, num 
questionário aplicado a alunos de uma universidade, podemos obter à idade, o 
tamanho da família e o número de disciplinas já cursadas, entre outras 
quantidades que podem ser de interesse para cada aluno. Considerando duas 
variáveis, digamos idade e tamanho da família, podemos listar todos os pares que 
ocorrem. Como pode haver repetição de valores, os resultados podem ser 
organizados em uma tabela, com os possíveis pares associados às suas respectivas 
[regiiências. 
Exemplo 5.1: Uma amostra de 20 alunos do primeiro ano de uma faculdade foi 
escolhida. Perguntou-se aos alunos se trabalhavam, variável que foi representada 
por X, e o número de vestibulares prestados, variável representada por Y. Os 
dados obtidos estão na tabela abaixo. 
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A variável X é qualitativa com dois valores: sim ou não. Por outro lado, a 
variável Y é quantitativa discreta com valores inteiros 1, 2 ou 3. Podemos coletar 
as fregiiências de ocorrência dos possíveis pares, construindo uma tabela de 
frequência conjunta de X e Y. 


O par (não, 1) tem frequência de ocorrência igual a 5, pois, na amostra coletada, 
foi esse o número de alunos que não trabalhavam e prestaram o vestibular apenas 
uma vez. Os outros valores são obtidos de forma semelhante. Esta mesma tabela 
pode ser apresentada de modo mais conveniente através da tabela de dupla 
entrada, mostrada a seguir. 


Note que a última linha e a última coluna contêm os totais de ocorrências de cada - 


variável, separadamente. Dessa forma, fica facilitada a tarefa de obter a tabela de 
frequência individual para cada variável que, pela posição em que seus valores 


aparecem na tabela de dupla entrada, é chamada de tabela marginal de fregiiência . 


da variável X (ou Y), ou simplesmente marginal de X (ou Y). Temos então para 
X e Y as seguintes tabelas de freqüência: 


sim 
otal 
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Exemplo 5.2: Um estudo envolveu 345 pacientes HIV positivos, acompanhados, 
durante um ano, pelo setor de doenças infecciosas de um grande hospital público. 
Os dados apresentados contêm as ocorrências relacionadas às variáveis número de 
internações (I) e número de crises com infecções oportunistas (C). 


ACILIENEJEES 
o fajas eo 
2 fo mee 


Para obter as marginais dessas variáveis, acrescentamos mais uma linha e uma 
coluna na tabela anterior, contendo os respectivos totais de ocorrência. Assim, 


[IVOÇO [IpopE aqi] 
o lapis e o 
2 fe esmo] 
[ota [10 [01 [86 [4a [ia [345 | 


Como já mencionamos, a última coluna da tabela acima fornece as fregiiências 
correspondentes aos valores da variável I, enquanto que a última linha fornece as 
freqüências para C. Logo, 


frequência 


fregiiência 


O 


Exemplo 5.3: Numa amostra de 195 empregados de uma grande indústria, 
observou-se o Salário recebido (em salários mínimos) e o Tempo de Serviço na 
Impresa (em anos). Tendo em vista que a variável Salário é quantitativa contínua, 
foram escolhidas algumas faixas para representá-la. Por outro lado, apesar da 
variável Tempo ser discreta, ela apresentou valores tão diferentes que se achou 
mais conveniente organizá-la também em faixas. Assim, 
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m 


Pelos exemplos anteriores, podemos perceber que variáveis de qualquer 
natureza podem ter seu comportamento conjunto representado através de tabelas 
de freqüência. Dessa forma, variáveis qualitativas ou quantitativas, discretas ou 
contínuas, têm seu comportamento estudado com tabelas de dupla entrada, para 
dados oriundos de toda a população ou de uma amostra. Veremos a seguir como 
tratar essa questão no caso de variáveis aleatórias discretas, definidas a partir das 
suas funções de probabilidade. Iniciamos estendendo a definição de função de 
probabilidade para o caso de duas variáveis. E 


Definição 5.1: Função de probabilidade conjunta 


Sejam X e Y duas variáveis aleatórias discretas originárias do mesmo . 


fenômeno aleatório, com valores atribuídos a partir do mesmo espaço amostral. A 
função de probabilidade conjunta é definida, para todos os possíveis pares de 
valores de (X, Y), da seguinte forma: 


p(z, y) = P(X = x£)N (Y = y)] = P(X = z,Y =y), 


isto é, p(x, y) representa a probabilidade de (X,Y) ser igual a (x,y). É comum 
nos referirmos, sempre que não houver ambiguidades e o contexto permitir, à 
função de probabilidade conjunta como distribuição conjunta ou simplesmente 
conjunta das variáveis. O 
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Note que, pela notação utilizada na Definição 5.1, o termo (X = x) 

representa o conjunto de eventos que levam a variável X a assumir o valor x. No 
próximo exemplo, ilustramos esse ponto. 
Exemplo 5.4: Uma empresa atende encomendas de supermercados dividindo os 
pedidos em duas partes de modo a serem atendidos, de forma independente, pelas 
suas duas fábricas. Devido à grande demanda, pode haver atraso no cronograma 
de entrega, sendo que a fábrica I atrasa com probabilidade 0,1 e a II com 0,2. 
Sejam Ay e Ary os eventos correspondentes a ocorrência de atraso nas fábricas I e 
Il, respectivamente. Vamos admitir que as encomendas sempre serão entregues, 
mesmo que com atraso. O espaço amostral, associado ao atendimento da 
encomenda, ficará sendo: 


Q = (ArArr, AjArr, Ar AS, ASAS). 


Para aliviar a notação, os eventos serão representados sem os respectivos 
subscritos mantendo, entretanto, a ordem das fábricas. Dessa forma, o evento 
A“ A significa que a fábrica I entregou sem atraso e a fábrica II com atraso. 

Suponha que para um certo pedido, a indústria recebe 200 unidades 
monetárias (u.m.) pela encomenda total entregue, mas paga uma multa de 20 u.m. 
para cada fábrica que atrasar sua parte. Considere que o supermercado, que fez a 
encomenda, criou um índice relacionado à pontualidade da entrega. Este índice, 
atribui 10 pontos para cada parte da encomenda entregue dentro do cronograma 
previsto. Vamos denotar por X o valor recebido pelo pedido e Y o índice obtido. 

Para cada evento do espaço amostral, podemos obter os valores das 

variáveis. Assim, se ocorre o evento AA“, a variável X tem valor 180, pois de 
200 subtraimos a multa de 20, decorrente de um atraso. Por outro lado, a variável 
Y assinala 10 pontos provenientes de uma entrega dentro do cronograma. A 
tabela a seguir, apresenta os eventos, as respectivas probabilidades e os 
correspondentes valores de X é Y. 


[AA | 01x02 [160[0] 
| 


Após coletarmos os pares idênticos, obtemos a conjunta das variáveis: 
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Dessa forma, a distribuição conjunta de (X,Y) contém todas as possíveis 


combinações dos valores (x, y), com suas correspondentes probabilidades. O. 


Da função de probabilidade conjunta p(x, y) é possível obter as funções 
de probabilidade marginal de X ou de Y, através da soma de uma das 
coordenadas. Assim, 


FPX == J pio) e PFs Duro)» 


y 


com a somatória percorrendo todos os valores possíveis de X ou Y, conforme o 
caso. 


Exemplo 5.5: Uma região foi subdividida em 10 sub-regiões. Em cada uma delas, 
foram observadas duas variáveis: número de poços artesianos (X) e número de 
riachos ou rios presentes na sub-região (Y). Os resultados são apresentados na 
tabela a seguir: 


Sorso [1/2 [E ESTE] 


[| XxX lJojojojojif2/if2/27o] 
[Yo qij2fipojiçopo(i[2/2] 
Considerando que escolhemos uma das sub-regiões ao acaso, isto é, cada sub- 


região têm mesma probabilidade 1/10 de ser escolhida, podemos construir a 
distribuição conjunta de (X, pe 
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Note que pares idênticos foram agrupados e somamos as respectivas 
probabilidades. Uma forma equivalente de apresentar a distribuição conjunta, 
porém com maior apelo visual, é através da tabela de dupla entrada. 


As distribuições marginais também podem aparecer na tabela, bastando efetuar a 
soma nas linhas para obter a marginal de X e, nas colunas, para a marginal de Y. 
Por exemplo, para calcular a probabilidade de X ser igual a zero, temos 


P(X =0)= P(X =0,Y =0)+ P(X =0,Y =1)+ P(X =0,Y =2) 
1 2 2 2. 

10110110) 10 

Repetindo os cálculos para outros valores de X e Y, obtemos a tabela a seguir: 


ESA EESC] 
Do oeo ao 5/0 | 
i oho 0 [200] 


Portanto, as funções de probabilidade marginais são as seguintes: 


X] 0 1 2 e Y| 0 1 2 
5/10 2/10 3/10 3/10 4/10 3/10 


m 


Em muitas situações há interesse em estudar o comportamento de uma 
função das variáveis tal como soma, produto ou alguma outra relação entre elas. 
Vamos nos restringir ao caso de variáveis aleatórias, mas o tratamento é similar 
para conjunto de dados referentes à população ou à amostra. Se conhecemos a 
distribuição conjunta de X e Y, o comportamento de outras variáveis, tais como 
X +Y, X? +5Y ou XY, pode ser determinado como ilustramos a seguir. 


Exemplo 5.6: Em uma cidade do Estado de São Paulo, admite-se que o número de 
anos para completar o ensino fundamental (variável F) e o número de anos para 
completar o ensino médio (variável M) têm função de probabilidade conjunta: 
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pf, m) 


Suponha que exista interesse em estudar as variáveis F+M e Fx M. 
Acrescentando, à tabela anterior, colunas correspondendo aos valores dessa novas 
variáveis temos 


Para obter a função de probabilidade de F + M, somamos as probabilidades nos 
valores comuns. Por exemplo, 


P(F+M=13)= P(F =8,M =5)+P(F =9,M =)= Ż o 


Procedendo de modo similar com os outros valores, obtemos as funções de 
probabilidade de F + Mede F x M: 


F+M[ 1 12 132 14 15. 
prob. [3/10 3/10 3/20 2/10 1/20” 


FxM| 24 27 32 36 40 45 50 
prob. [3/10 2/10 1/10 1/20 2/10 1/10 1/20 ` 
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Exercícios da Seção 5.1: 


1. O setor de emergência de um Pronto Socorro Infantil anotou o número de 
crianças atendidas (C), de médicos (M) e de auxiliares (A) de plantão em 15 
dias de atividades. Os dados são apresentados na tabela abaixo. 


[Dia [1[2[3[4[5[6|7[8[9[10/[11 [12/13/14 [15] 

(Clo[fr/sfejs[o|r|sjo[6 [7 [5 [5 ]6 76] 

| 

(4 [afafsfofrir|c|sjs[6|7|r|c|c|r] 

a. Determine as tabelas de frequência marginais de C, M e A. 

b. Obtenha a tabela de fregiiência conjunta entre (C,M), (C, A) e (M, A). 

c. Represente a tabela de frequência conjunta de M e A, através de uma tabela 
de dupla entrada. 

d. Calcule a média das variáveis M e 4. 


2. Para famílias de um certo bairro de São Paulo, apresentamos abaixo a tabela de 
frequência conjunta das variáveis: número de automóveis (A) e de TVs (T). 


ATO IE um] 
[O [uo/[=5[10/465] 
| 


a. Calcule as marginais de A e 7. C 
b. Determine as médias dessas variáveis. 


3. Uma moeda equilibrada é lançada 2 vezes de forma independente. Ao final dos 
lançamentos, duas variáveis aleatórias são anotadas: o número total de caras (C) 
c o número de coroas no 2o. lançamento (K). 
a. Construa uma tabela com os possíveis eventos, as respectivas probabilidades 
e os valores de C e K. 
b. Apresente a tabela de dupla entrada com a função de probabilidade conjunta 
das variáveis aleatórias Č e K. 
c. Determine o valor esperado de C. 


4. Num estudo sobre o tratamento de crises asmáticas, estabeleceu-se a seguinte 
função conjunta de probabilidades entre o número de crises de asma (A) e o 
número de internações hospitalares (H). 
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a. Determine as funções de probabilidade marginal das varipes 4 € H. 
` b. Calcule o valor esperado dessas variáveis. l 
c. Obtenha a função de probabilidade da variável A + H. ~< 


5. A função conjunta de probabilidade entre as variáveis X e Y é apresentada 


abaixo (com algumas entradas faltando): 


CENE 
a2 | Hie 
a aeta o [io 3 
a iea nea a aa 56 | 
[2 [sa "152 a a e | 
a. Complete a tabela. 


b. Obtenha as marginais de X e Y. 
c. Calcule a função de probabilidade da variável X x Y. 


5.2 Associação entre Variáveis 


Uma pergunta frequente de pesquisadores e usuários de Estatística é 
sobre a associação entre uma ou mais variáveis. Buscar explicar como se 
comporta uma variável em função do desempenho de outras têm sido o objetivo 
de vários estudos que utilizam a Estatística como ferramenta auxiliar. Nesta 
seção, começamos a responder a essa questão. Uma resposta mais completa será 
dada na parte referente à Inferência Estatística. 

Com dados de duas variáveis, em uma população ou amostra, podemos 
construir um gráfico no plano cartesiano com a fregiiência de ocorrência dos 
diversos pares de valores. Esse diagrama pode auxiliar a identificação de 
tendências de associação entre as variáveis, conforme veremos no próximo 
exemplo. 


Exemplo 5.7: Dentre os alunos do lo. ano do ensino médio de uma certa escola, 
selecionou-se os quinze alunos com melhor desempenho (nota acima de 7) em 
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inglês. Para esses alunos, foi construída a próxima tabela com as notas de inglês 
(1), português (P) e matemática (M): 


[Aluno [1[2/3[4]5[6]7[8[9]10]11]12/13]14]15] 
est 

psjojs[fojs[6Jojr|v|o]|T|8|9|s|8] 
am tstotristatootatrtototetoteto 


A tabela de fregiiência conjunta de (1, P) é dada por: 


EAEI 


Um gráfico contendo as informações dessa tabela é apresentado, a seguir, com as 
freqüências ao lado de cada ponto. Note que há uma tendência das notas altas em 
inglês, serem acompanhadas por notas altas em português. 


P 


10 


o 


o 


N 


o 
+ 
. 


q 


T i 
! 
5 6 ri 8 9 10 
Considere agora as variáveis 1 e M. A tabela de frequência conjunta é a 
seguinte: 
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Observe que o bom desempenho em inglês parece, neste caso, não implicar num 
bom desempenho em matemática. 0 


diagramas tornam-se de difícil interpretação, em alguns casos. Por exemplo, se o 
conjunto de dados tem muitas observações com poucos valores diferentes 
algumas frequências serão altas atrapalhando a visualização de uma eventual 
tendência. Dessa forma, é importante ampliar o estudo da associação entre 
variáveis, para buscar uma caracterização que não dependa só da interpretação 
visual. Com este objetivo, definimos probabilidade condicional e frdispe dna 
para variáveis aleatórias, estendendo os conceitos apresentados no Capítulo 2 para 
eventos aleatórios. Aqui, o condicionamento, na ocorrência de um gli da 
variável aleatória, é equivalente ao condicionamento na ocorrência de um evento 


Apesar de ser um instrumento útil para identificar tendências, os 
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Definição 5.2: Probabilidade condicional para variáveis aleatórias discretas 


Dadas duas variáveis aleatórias discretas definidas no mesmo espaço 
amostral, a probabilidade condicional de X = x, dado que Y = y ocorreu, é dada 


pela expressão: 
P(X=2,Y = y) 


PF cy) "se P(Y => 


P( X=Y ag)= 
Caso P(Y =y)=0, a probabilidade condicional pode ser definida 
arbitrariamente e adotaremos P(X = z | Y = y) = P(X = x). o 


Definição 5.3: Independência de variáveis aleatórias 


Duas variáveis aleatórias discretas são independentes, se a ocorrência de 
qualquer valor de uma delas não altera a probabilidade de ocorrência de valores 


da outra. Em termos matemáticos, 
P(X =p |Y =)= P(X =g) 


para todos os possíveis valores (x,y) das variáveis (X,Y). Como definição 
alternativa e equivalente podemos usar que: 
P(X =xzx,Y = y) = P(X = x) P(Y = y), para quaisquer (x, y). m 


» 

A verificação da equivalência entre as duas expressões, acima, pode ser 
feita de modo análogo ao realizado no Capítulo 2. Deixamos ao leitor essa tarefa. 
Note, ainda, que a definição de independência exige que a igualdade seja 
verdadeira para todas as escolhas dos pares (x, y). Assim, basta encontrarmos um 
par em que a igualdade não se verifique para concluirmos que as variáveis 
aleatórias não são independentes. A Figura 5.1 resume esses comentários. 


Figura 5.1: Independência de variáveis aleatórias. 


ixemplo 5.8: O Centro Acadêmico de uma faculdade de administração fez um 
levantamento da remuneração dos estágios dos alunos, em salários mínimos, com 
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relação ao ano que estão cursando. As probabilidades de cada caso são 
apresentadas na próxima tabela, incluindo as distribuições marginais. 


JE 


dolaç 1 x >z . z8 = 2.“ 
Pelas informações apresentadas, as variáveis Salário e Ano de curso não são 
independentes pois, por exemplo, 


P[(Sal. = 3) N (Ano = 4)] = 2/25 # P(Sal. = 3) P(Ano = 4) = 11/125. 


Uma maneira bem prática de verificar independência consiste em usar a tabela de 
dupla entrada, checando se o produto da última linha e última coluna (as 
marginais) reproduz o corpo da tabela. Se a tabela contiver um zero no seu corpo, 
basta verificar se uma das marginais correspondentes é zero. Caso nenhuma 
marginal seja zero, concluímos imediatamente a não independência, uma vez que 
o produto de dois números não nulos nunca é zero. o 


A verificação da independência, no caso de duas variáveis em um 
conjunto de dados, será discutida com maior profundidade no Capítulo 8 que trata 
de Testes de Hipóteses. Entretanto, podemos utilizar as idéias de independência 
de variáveis aleatórias para estudar a relação de duas variáveis observadas numa 
população ou amostra. Uma das formas utilizadas é construir a tabela de dupla 
entrada com porcentagens em relação ao total de colunas ou linhas. 


Exemplo 5.9: Em uma clínica médica foram coletados dados em 150 pacientes, 
referentes ao último ano. Observou-se a ocorrência de infecções urinárias (U) e o 
número de parceiros sexuais (N). Deseja-se verificar se essas variáveis estão 
associadas. Os dados são apresentados a seguir, com as respectivas marginais. 


Construindo uma nova tabela com as porcentagens em relação ao total de coluna, 
obtemos a proporção relativa da variável U em relação a cada subconjunto de 
valores de N. 
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yN OO | i [2oumas| oa | 


Considerando os valores de U no conjunto total de dados, temos 53,3% de 
respostas positivas e 46,7% de negativas. Caso não haja associação dessa variável 
com o número de parceiros, devemos esperar porcentagens similares em cada 
valor da variável N, indicando que esses valores não interferem com as respostas 
de U. Assim, por exemplo, para N = 0 seria esperado ter, aproximadamente, 
53,3% de respostas positivas, que é a mesma ocorrência verificada no total da 
linha. Como se pode observar da tabela acima, as porcentagens são próximas 
apenas no caso N = 1, sendo bem diferentes nos outros casos. Dessa forma, os 
dados sugerem que as variáveis não são independentes. O 


Continuando o estudo da associação entre variáveis num conjunto de 
dados, construímos, no próximo exemplo, uma tabela de dupla entrada contendo - 
as freqüências que seriam esperadas, caso houvesse independência entre as 
variáveis. Precisamos decidir se as duas tabelas, a de freqüências observadas e a 
de esperadas, estão suficientemente próximas uma da outra. 


Exemplo 5.10: Apresentamos os dados relativos a uma amostra de 80 famílias, de ` 
um certo bairro, com as informações sobre o número de pessoas que trabalham 
na família (T) e o número de adolescentes entre 12 e 18 anos (A). 

3 


total 


| total | 


A marginal de T e as freqüências de seus valores, restritas ao grupo A = 0, serão 


apresentadas em seguida. Note que as freqüências de ocorrência, restritas a cada 
grupo de valor de 4, nada mais são do que as colunas da tabela de dupla entrada 


do início do exemplo. 
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Se houvesse independência entre T e 4, o comportamento da variável T 
em cada grupo deveria ser o mesmo e, portanto, esperaríamos que as fregiiências 
de cada valor de T mantivessem a mesma proporcionalidade encontrada na 
amostra como um todo. Em outras palavras, as duas tabelas acima precisariam ser 


parecidas quanto à frequência relativa. Acrescentamos, na tabela restrita ao grupo . 


A = 0, uma nova coluna com a fregiência esperada caso a independência se 
verifique. Essa coluna foi calculada multiplicando a fregiiência relativa do valor 
de T (em toda a amostra) pela frequência do grupo. Por exemplo, a fregiiência 
esperada do valor T = 1, no grupo dos A= 0, seria 21/80 x 15 = 3,94. Note 
que esta freqiiência não precisa ser um número inteiro. 


T\A=0 freq. esperada 


freq. observ 


E E E 
FTSE] 
DS [4] 


De modo análogo ao feito para o grupo A= 0, calculamos as fregiiências 
esperadas para todas as colunas da tabela de dupla entrada (valores aproximados): 
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Cabe agora quantificar se essa tabela está ou não “muito” distante da tabela 
observada. Uma medida usualmente calculada é a seguinte: 


=> (oij — eis)? 


T Ci; 
ij "I 


com o;j e e;j representando, respectivamente, as freqüências observadas e 
esperadas na linha i e coluna j. A medida Q? usa a diferença entre o;j € e;; 
elevada ao quadrado para evitar o cancelamento de termos positivos por 
negativos. A divisão por e;; objetiva padronizar a medida, relativizando o 
tamanho da diferença encontrada. Como estamos tratando de observações de 
variáveis, podem ocorrer flutuações devido à natureza aleatória da amostragem e 
concluiremos pela independência entre essas variáveis, se houver razoável 
proximidade nas tabelas. Não é difícil perceber que isto significa valores 
pequenos da medida Q? e, no Capítulo 8, desenvolveremos um critério estatístico, 
para tomar a decisão de aceitar a independência de duas variáveis. Para este 
exemplo, vamos nos contentar em apresentar o cálculo da medida Q? que, pelo 
seu valor, consideraremos uma indicação de não independência: 


- (28) 4 — 1,70)? 
dim OO a 


Q 2,81 o o AM 


O 


No caso de dependência linear e de variáveis quantitativas, existe uma 
outra medida que é freqüentemente utilizada e será definida, a seguir, para um 
conjunto de dados brutos. 


Definição 5.4: Correlação entre variáveis num conjunto de dados brutos 


Considere um conjunto de dados com n pares de valores para as variáveis 
X e Y, representados por (x;,y;),i = 1,2, ...,n. O coeficiente de correlação 
mede a dependência linear entre as variáveis e é calculado da seguinte forma: 


n 


2 (zi x Tob) (Yi = Tobs) 
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ou, em uma forma mais conveniente para cálculo, 


n 


tii — NEobs obs 
i=1 


nT È py; a nie) 


o 
~ 

As expressões anteriores podem ser adaptadas para o caso em que os 

dados estão agrupados em uma tabela de freqüência. As expressões não serão 
apresentadas aqui, mas acreditamos que podem ser obtidas sem dificuldade. 
É possível verificar que o coeficiente de correlação é sempre um númer: 

entre —1 e 1. Um ponto a ser ressaltado, que muitas vezes causa confusão, é qu 
correlação igual a zero não indica independência. Se a correlação é zero, o q 
podemos dizer é que não existe dependência linear entre as variáveis. Um 
interpretação para os termos presentes no seu cálculo será dada mais adiante 


quando definiremos coeficiente de correlação para variáveis aleatórias. 


Exemplo 5.11: A quantidade de chuva é um fator importante na produtividad 
agrícola. Para medir esse efeito foram anotados, para 8 diferentes regiõe 
produtoras de soja, o índice pluviométrico em milímetros (X) e a produção d 
cg ano em toneladas Wi ops diami o oiite de correlação. 


u etete etr a a a] a 


ro 0,4 D |. 8 do |O oq U + 
Com o auxílio de uma anika e Skrónide 2 e ted, A obtemos: 


8 


8 
Sm = 1085 , Š 2; = 151533; 
i=l t=1 ` 


8 
y =810, $ y; = 12640; 
i=1 


M- 


H 


i= 


> um = 43245. 
1=1 


oo 
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Segue que Tops = 135,63 e Y ops = 38, 75. Utilizando a expressão de cálculo da 
correlação vem que: 

43245 — 8 x 135,63 x 38, 75 

Pxy = = 0,73. 

[151533 -8 x 135, 63º] 12640 — 8 x 38, 75º] 
Portanto, a correlação entre índice pluviométrico e produção é positiva e bastante 
razoável. Desta forma, locais com maior intensidade de chuva tenderiam a ter 
maior produtividade. O 


Vamos voltar nossa atenção agora para variáveis aleatórias discretas. Para 
definir medidas de dependência entre elas, precisamos estudar, inicialmente, as 
propriedades do valor esperado. 

Sejam X e Y duas variáveis aleatórias discretas com distribuição 
conjunta p(x, y). As marginais de X e Y serão representadas, repectivamente, por 
p(x) e p(y). 

Vamos determinar o valor esperado da variável X + Y: 


pulo + y)p(z,y) 

= D erle) +22 uplen) 

m Èe +2 plz, v)) + As i} p(x,4)) 
2 Xe p(z) + p(y) 


= E(X) + E(Y) | 


E(X+Y)= 


Note que obtemos essa importante propriedade do valor esperado, sem necessitar 
de nenhuma hipótese adicional sobre as variáveis. Dessa forma, esse resultado 
tem ampla aplicação e também é válido para mais de duas variáveis. 

Considere agora o produto XY. O valor esperado do produto será o 
produto dos valores esperados, sempre que as variáveis forem independentes. 

Para X e Y variáveis aleatórias discretas independentes, temos: 
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E(XY) = 2 2 rupley) 


T 


= 2 > vypla) p(y) y 


= E(X) E(Y). 


Oae 
te 


| 


Exemplo 5.12: No Exemplo 5.5, o par de variáveis (X ,Y) representava, 


respectivamente, a quantidade de poços artesianos e de riachos em sub-regiões de 


uma certa área. A próxima tabela contém os valores das variáveis X +Y e XY 


com suas probabilidades. 


Utilizando a tabela acima, a função de probabilidade de X +Y e a de XY são 
obtidas sem dificuldade: 


Et+r| 0 1 2 3 4 
prob. | 1/10 3/10 4/10 1/10 1/10 


XY 0 1 2 4 
prob. | 7/10 1/10 1/10 1/10 
Para os valores esperados temos: 


E(X +Y) = 18/10 e E(XY) = 7/10. 


As distribuições marginais de X e Y já foram calculadas no Exemplo 5.5 e são 
reapresentadas em seguida: 
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X] 0 1 2 
p; | 5/10 2/10 3/10 


Y] o0 1 2 
p; | 3/10 4/10 3/10 


Segue então que E(X) = 8/10e E(Y) = 1. 
Podemos agora verificar que 
E(X +Y) = 18/10 = E(X) + E(Y) = 8/10 + 1, 
isto é, o valor esperado da soma é igual à soma dos valores esperados. 
Entretanto, para o produto temos 
8 


E(XY) = 7/10 % E(X) E(Y) = 5x1, 


ou seja, o valor esperado do produto de duas variáveis não é igual ao produto de 
seus valores esperados. Note que, conforme já havíamos mencionado, as variáveis 
aleatórias X e Y não são independentes. 0 


Na Figura 5.2, apresentamos a expressão do valor esperado da soma de 
variáveis aleatórias. 


Figura 5.2: Valor esperado da soma de variáveis aleatórias. 


É importante salientar a relação unidirecional de implicação entre a 
independência e a fatoração da esperança do produto. O resultado válido afirma 
que a independência de X e Y implica no valor esperado do produto XY ser 
igual ao produto do valor esperado de X pelo valor esperado de Y. Todavia, se o 
valor esperado do produto de duas variáveis é o produto dos valores esperados, 
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não necessariamente é verdade que X e Y são independentes. A Figura 5.3 
resume esse comentário, que é ilustrado no próximo exemplo. 


Figura 5.3: Valor esperado do produto e independência de variáveis aleatórias. 


Exemplo 5.13: Considere as variáveis W e Z com a seguinte distribuição 
conjunta: 


Da a o [302] sp | 
Do o (fins) 2p2 | 
| 


A variável W Z tem função de probabilidade dada por: 


WZ | -4 -2 0 2 3 4 
prob. | 3/12 2/12 2/12 1/12 2/12 2/12 


Temos então, 


E(W Z) = (—4) x 3/12 + --- + 4 x 2/12 
=0. 


Por outro lado, utilizando as distribuições marginais de W e Z, podemos calcular | 


seus valores esperados. Assim, 
E(W) = (—1) x 5/12 +0 x 2/12 + 1 x 5/12 =0; 
E(Z) = 2 x 3/12 +3 x 3/12 + 4 x 6/12 = 39/12. 


Vale portanto a relação E(W Z) = E(W) E(Z). Nesse caso, seriam W e Z 
independentes? A resposta é não, uma vez que, por exemplo, 


P(W = —1,Z = 2) = 2/12 4 P(W = —1)P(Z = 2) = 15/144, 
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e, desde que temos um par em que a probabilidade da conjunta não é igual ao 
produto das probabilidades marginais, concluimos que as variáveis aleatórias W e 
Z não são independentes. O 


Se as variáveis são dependentes, a relação entre elas pode ser de vários 
tipos e, no caso de ser linear, vamos definir uma medida dessa dependência. 


Definição 5.5: Covariância de duas variáveis aleatórias 
Uma medida de dependência linear entre X e Y é dada pela covariância: 
Cov X,Y) = oxy = E|(X — ux) (Y — uy)). 
Em palavras, a covariância é o valor esperado do produto dos desvios de cada 
variável em relação à sua média. 0 


No próximo exemplo ilustramos o cálculo da covariância e, para auxiliar 
a interpretação de sua expressão, faremos uma representação gráfica dos valores 
das variáveis. 


Exemplo 5.14: As variáveis U e V têm a seguinte distribuição conjunta: 


Representamos a seguir essa distribuição através de uma tabela de dupla entrada, 
incluindo as marginais. 


Utilizando as probabilidades marginais, obtemos imediatamente que E(U) = 4 e 
E(V) = 6. Nosso interesse é verificar a existência de uma relação linear entre U e 
V. No diagrama a seguir, apresentamos a função de probabilidade conjunta das 
duas variáveis. 
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Os pontos localizados no 1° e 3° quadrantes têm suas coordenadas com o 
Mesmo sinal, logo o produto delas é positivo. No 2° e 4°, o produto é negativo. 
Somando esses produtos, ponderados pelas respectivas probabilidades, temos: 


DD (u=E(U)) x (0 E(V)) x p(u,v), 


0,1 


œ 
4 


@ esse número indica a tendência de alinhamento no sentido dos quadrantes 
impares ou pares, de acordo com o sinal positivo ou negativo, respectivamente. A 
expressão acima nada mais é do que a fórmula da covariância entre Xe Y, 
Apresentada aqui em uma forma mais detalhada do que na Definição 5.5. 
fifetuando os cálculos, obtemos Cov(U,V) = 2, indicando a tendência das 
variáveis moverem-se na mesma direção, isto é, quando uma variável cresce a 
outra também cresce. O 


sega 


A covariância pode ser calculada mais facilmente pela seguinte expressão 
alternativa: 


; Co(X,Y)=oxy = E(XY) - E(X) E). 
Fazemos agora uma translação de eixos para colocar a origem na Y) , ( ) (X) E(Y) 
respectivas médias, isto é, no ponto (4,6). Dessa forma, os pontos anteriore 
transformam-se em (u — 4,v — 6), com cada coordenada representando o desvio. 
em relação à sua média. 


Observe que, no caso em que X e Y serem independentes, temos Cov(X ,Y)=0, 
tma vez que o valor esperado do produto se torna igual ao produto dos valores 


a ari do ie E A A a 
esperados. A partir da covariância, definimos uma nova medida de dependência 
lincar. 


v Definição 5.6: Correlação entre variáveis aleatórias 
10 e“ O coeficiente de correlação entre as variáveis aleatórias discretas X e Y 
é calculado pela seguinte expressão: 
01 0,2 
a f ° Cov(X,Y) 
PE E —— 
Ox Oy 


0 


Pela definição acima, o coeficiente de correlação é o quociente entre a 
covariância e o produto dos desvios-padrão de X e Y. A divisão pelo produto dos 


o 
J 
e gran on nn 
o 
D 


0,1 . ES, as: . . z z, 
Ea x desvios-padrão tem a função de padronizar a medida e torná-la possível de ser 
A OESS i m> utilizada para comparações com outras variáveis. Não é difícil verificar que PXxY 
4 É r U é um número adimensional e limitado por 1, isto é, |oxy| < 1. A interpretação de 
0 1 2 3 


ua expressão segue os mesmos passos da covariância, sendo que valores de 
P' x,y próximos de + 1 indicam correlação forte. 
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Vamos, agora, deduzir a expressão da variância da soma de duas variáveis 
aleatórias. Desenvolvendo a partir da definição de variância temos: 


Var(X +Y) =E[(X +Y) — (ux + uy) 
=E|(X— px) + (Y — mn] 
=E [(X — ux)’ + (Y - uy}? + AX — ur — uy )] 
=E(X — px +E(Y uy +2E[(X— ux )\(Y - uy)]. À 
Então, | 
Var(X +Y) = Var(X) + Var(Y) +2Cov(X,Y) 
que, se reduzirá à soma das variâncias, no caso de independência entre X e Y. 


Exemplo 5.15: Nos Exemplos 5.5 e 5.12, o par de variáveis (X,Y) representav 
respectivamente, o número de poços e de riachos em sub-regiões de uma cert 
área. 


Já calculamos E(X Y) = 7/10, E(X) = 8/10e E(Y) = 1, portanto, 
7 8 1 


Cov(X,Y) =E(XY)-E(X)E(Y) = -5 J5 *1= 


Usando as distribuições marginais, podemos obter o% = 76/100 e o? = 60/100 
Para a variância de X + Y temos 


76 60 1 116 
O coeficiente de correlação será 
_ Co(X,Y) —1/10 —0,15. 


16/100 60/100 


Nas figuras a seguir, resumimos algumas fórmulas dessa seção. 
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+ 2 Cov(X, Y 


Var(X ar Var(Y 


Figura 5.6: Variância da soma de duas variáveis aleatórias. 


Vamos encerrar essa seção, aplicando as propriedades do valor esperado e 
da variância na obtenção dessas quantidades para o modelo Binomial. 


Exemplo 5.16: Considere uma sequência de variáveis aleatórias independentes 
com distribuição Bernoulli de parâmetro p. Como se comporta a soma de n dessas 
variáveis? 


Representemos por X1, X2, ..., Xn a sequência de variáveis de Bernoulli. 
Listamos interessados em X = X, + X2 +- + Xn e, pela definição do modelo 
Binomial, já sabemos que X = b(n, p). 

Lembrando que E(X;)) = p e Var(X;) = p(1 — p) para i = 1,2,..., n, 
vamos calcular a média e a variância de X, utilizando as propriedades 
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apresentadas anteriormente. Temos, 


E(X) = E(Xı + Xo ++ Xn) 
= E(X1) + E(Xo) + + E(Xn) 


=np. 
Para obter a variância, usaremos a independência dos X;,: s 


Var(X) = Var(Xı + X2 + + Xn) 
= Var(X1) + Var(X2) + -:- + Var(Xn) 
-=p(1-p)+p(1-p)+:: +p- p) 
=np(1 — p). 
Esses resultados coincidem com aqueles apresentados no Capítulo 3. 0o 
Exercícios da Seção 5.2: l 


1. Na tabela a seguir encontram-se os conceitos de história (H), matemática (M) 
e física (F) de alguns alunos do 30. ano do ensino médio de uma escola. 


CERs dt ari rasdcda Tania 


e e eia o AR] 
r fafefofc[bIclclb|jb]|clcIb) 


a. Construa as tabelas de fregiiência conjunta para H e M e para H e F. 
b. Calcule a proporção de alunos com b em física, dentre os com pelo menos c 
em matemática. 


2. Um levantamento obtido, junto aos funcionários de um pequeno escritório; 


busca relacionar as variáveis: anos de estudo (X) e número de diferentes 
empregos nos últimos 5 anos (Y). O que você pode dizer com os dados 


fornecidos? n 
FSH DEE 


3. Uma amostra de 220 clientes de uma clínica dentária foi selecionada. As 
variáveis tempo, em anos, decorridos desde a última visita ao dentista (V) e o 
número de cáries encontradas (C) é apresentado na próxima tabela. 
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LAILI ESES 


a. Obtenha as tabelas marginais de freqüência. 

b. Construa a tabela de freqüências esperadas, caso houvesse independência 
entre as variáveis. 

c. Determine o índice Q?. 


4. A função de probabilidade conjunta entre as variáveis aleatórias X e Y é 
apresentada na próxima tabela. 


XY |-2]0 [2 [4] 
DT [o2 o for(oi] 
a. Obtenha as funções de probabilidade marginais das variáveis. 


b. X e Y são independentes? 
c. Calcule a covariância e a correlação entre X e Y. 


5. Na caixa I existem duas bolas numeradas 0 e 1, enquanto que a caixa II contêm 
duas bolas numeradas —1 e 0. Uma bola é retirada aleatoriamente de cada 
caixa, de forma independente uma da outra. A esse experimento, associamos as 
variáveis aleatórias: número da bola retirada na caixa I (X), soma dos valores 
das duas bolas retiradas (Y ) e a diferença, em módulo, desses valores (Z). 

a. Determine a função de probabilidade conjunta entre X e Y e entre Y e Z. 
b. Verifique se X e Y são independentes. Idem para Y e Z. 

c. Calcule a covariância entre X e Y. 

d. Obtenha Var(X + Y). 


6. A variável X é Bernoulli com p = 0,4 e Y é Binomial com p = 0,5 e n = 3. 
Admita que X e Y são independentes. 
a. Determine P(X = 0| Y = 2). 
b. Obtenha a função de probabilidade conjunta de X e Y e do produto XY. 
c. Calcule E(X), E(Y) e E(XY) e verifique que: E(X) x E(Y) = E(XY). 
d. Determine o valor de Cov(X,Y) e de px y. 
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5.3 Exercícios 


l. 


3. 


4. 


A tabela a seguir apresenta os valores observados em uma amostra de 130 
empregados do ramo do comércio. 


a. Construa as tabelas marginais de freqüência para as variáveis Sexo e 
Fumante. 

b. Se usássemos a amostra para tirar uma conclusão sobre toda população, 
você diria que, proporcionalmente, mais homens fumam do que mulheres? 

c. Calcule o índice de associação Q? entre as variáveis. 


Em uma amostra de 8 funcionários de uma empresa, observou-se duas 
variáveis: anos de empresa (A) e número de promoções recebidas (P). Com 
os resultados apresentados a seguir você diria que, para essa empresa, essas 
variáveis estão associadas? 


Aj5 |6]6|T|7|8[8]8] 
{ele [2f1[2|o0|s]|1]o] 
Está sendo estudado o efeito do teor de ferro na capacidade de carga de vigas 


de concreto. Os dados abaixo apresentam os resultados de medidas âbtidas em 
uma amostra. Obtenha a correlação entre as variáveis. 


54 [68 [69[73 [77 [SI[E2[E5[80[Eo] 
[Carga tonm) [2,1 [2,2 [2,9 [2,9 


A tabela de fregiência conjunta entre número de filhos (F) e número de 
casamentos oficiais (C) é apresentada, a seguir, para os 250 funcionários de 
uma certa empresa. 


a. Determine as tabelas de frequência marginais, correspondentes a cada uma 
das variáveis, isoladamente, e calcule as médias de F e C. 


b. Construa um gráfico com a distribuição de freqiiência das variáveis. Você | 


chega a alguma conclusão? x 


c. Determine o coeficiente de correlação entre F e C. Note que será - 


necessário adaptar a expressão apresentada na Definição 5.4. 
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5. 


0. 


Os dados a seguir referem-se a uma amostra de 5 alunos que informaram, no 
início do curso, seu peso e idade. 


[Peso |71 | 65 |70157166 
a. Encontre a média e o desvio padrão do peso dos alunos com 17 anos. 


b. Construa o diagrama de Peso por Idade. > 
c. Obtenha o coeficiente de correlação entre peso e idade. 


Para cinco volumes de uma mesma solução foram medidos os tempos de 
aquecimento, em um mesmo bico de gás, e as respectivas temperaturas de 
ebulição: 


[Temperatura CC) | 75 [ 80 | 75 [82 [78] 


a. Obtenha o gráfico do Tempo pela Temperatura e calcule a correlação. 
b. Você acha que existe associação entre as variáveis? 


7. Alguns cientistas sociais acreditam que a opinião sobre o aborto independe da 


situação familiar. O que você diria, após estudar a amostra? 
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8. A tabela a seguir consiste de 16 valores de três variáveis observadas em alunos 
do curso de Ciências Sociais» sexo (S), nota de estatística (E) e nota de 
antropologia (A). 


SIM[F[M[F[M[M[F[E[E[M[M[ETM[F[E[M] 
era 
Als [j4afs[s[s[o[alo[s[5[4[4a[5[5[6/5] 


a. Construa a tabela de dupla entrada para as notas de estatística e 
antropologia. 
b. Repita o item (a), considerando apenas os homens. 
c. Calcule, para os alunos do sexo masculino, o coeficiente de correlação entre 
as notas de estatística e de antropologia. 
- d. Com o uso da tabela obtida em (a), calcule a porcentagem de cada 
frequência conjunta em relação ao total de alunos. 


9. Num certo distrito de saúde, o comportamento conjunto dostases mensais de 


sarampo (S) e difteria (D) foi o seguinte: 


[Dia [1]2]3[4[5[6[7[8[9[io[i[i2[isfiáis| 
ps jojifijajof2[2ti[2/1[i[1[2/0po| 
[D|3[oj2[2/sfofif2fofi [2/2 [3 [271] 


jtjif2(lsfifo(if2[ito[o(o[1 [172] 

(2 j2jifs[2[2(/2[2[1[2/1[i[1/3]/3] 

a. Obtenha a tabela de dupla entrada. 

b. Calcule a porcentagem de cada ocorrência conjunta em relação ao total de 
casos. 

c. Repita o item (b), fazendo a porcentagem em relação ao total de colunas. 

d. Que conclusão se pode tirar da-relação entre a incidência de sarampo e 
difteria? 


10. As informações da tabela a seguir foram coletadas de 24 pacientes da área de 
Cardiologia de um grande hospital público. A variável C indica o número de 
intervenções cirúrgicas sofridas pelo paciente, S representa o número de 
pontes safena colocadas pelo paciente em uma ou mais cirurgias e a variável F 
indica o número de familiares próximos com problemas cardíacos. 
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Pac. No. [1]2[3]4[5]6[7]8[9[10[ii[i2[13] 
po popoporcereRnE, 
(Ss [oJ2lsfififojs|aj2psfifo(a] 
| HF [oj2fapojifififofo[s(o[i(a| 


Dr fatsfopofitopopipifata 


a. Construa a tabela de dupla entrada com as variáveis Ce S. 

b. Estude a associação entre as variáveis C e S, através das porcentagens em 
relação ao total de coluna. 

c. Repita os itens (a) e (b) para C e F. 

d. Repita os itens (a) e (b) para S e F. 


11. O departamento de vendas de certa companhia ofereceu um curso de 
atualização a seus funcionários e, para estudar a eficácia do curso, resolveu 
comparar a nota de teste no curso (T) com o volume de vendas, em rhilhares' 
de unidades, nos seis meses cada ao curso (V). Os resultados estão na 
tabela abaixo. 


rjsjolr|8j6ols|s]|s[6|r|4aJr[3[573] 
[V [14 [13 [12 [13 [10 [12 [11 |11 [10 [12 [00 | 13 [10 | 12 [11 | 


a. A variável T serve para explicar a variável V? Justifique. 
b. Calcule a correlação entre as variáveis. 


12. Um total de 1000 passageiros de vôos domésticos foram entrevistados no 
Aeroporto de Guarulhos. Duas variáveis foram observadas: número de viagens 
mensais (V) e número de automóveis na família (A). O resultado está na 
próxima tabela que, por descuido, está incompleta. 


Apr paE [oa 
A poor: 
3 us 


oa [of [20 
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a. Complete a tabela. . 
b. Calcule as porcentagens em relação ao total de coluna. 
c. As variáveis são independentes? Justifique. 


13. A tabela de frequência apresentada em seguida está incompleta e contêm 
observações das variáveis: vida útil do equipamento (U) e garantia do 
fabricante (G), ambas medidas em anos. 


oea pape e po 


a. Complete a tabela. 

b. Construa o gráfico de U por G e verifique se há associação entre as 
variáveis. 

c. Calcule a vida útil média para cada subgrupo de valor da garantia. Comente 
os resultados. 


14. Para o lançamento de dois dados equilibrados, defina duas variáveis 
aleatórias. Seja X o número de vezes que aparece a face 2 e Y iguala O sea 
soma for par e 1, caso contrário. 

a. Determine a função de probabilidade conjunta de X e Y. 
“b. Calcule E(X), E(Y) e E(X +Y). 

c. Verifique se X e Y são independentes. 

d. Calcule o coeficiente de correlação entre X e Y. 


15. Considere a função conjunta: 


HURR E E 
Do [sis A] 
a. Calcule P(1 < X < 2,Y > 1)e P(X =1,Y > 1). 
b. Determine E(X), E(Y) e Cov( X,Y). 
c. X e Y são independentes? Justifique. 
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16. A função de probabilidade conjunta das variáveis X e Y é dada pela seguinte 
tabela de dupla entrada. 


a. Verifique se E(XY) = E(X)E(Y). 
b. X e Y são independentes? Comente. 


17. Numa caixa existem 4 bolas numeradas 3, 5, 5 e 7. Uma bola é sorteada ao 
acaso, seu número anotado (X1) e devolvida à caixa. Uma segunda bola é 
escolhida, também ao acaso, e seu número denotado por X3. 

a. Determine a conjunta de X; e X3. 
b. Calcule as marginais de X, e X». Elas são independentes? 
c. Encontre o valor esperado e a variância de X4, X, e X = A 


18. Uma moeda equilibrada é lançada três vezes e são definidas as variáveis 
aleatórias: número de caras nos dois primeiros resultados (X), número de 
caras no último lançamento (Y) e número total de caras (S). 

a. Construa a tabela conjunta de (X,Y). | 

b. Verifique se X e Y são independentes. à 

c. Calcule E(X), E(Y) e Cov( X,Y). 

d. Expresse 5 em função de X e Y e determine E(S) e Var( S). 


19. Considere a frase: "Para mais saúde pratique mais esporte". Escolha ao acaso 
uma palavra dessa frase e considere as variáveis aleatórias número de vogais 
(V) e número de consoantes (0). 

a. Determine a conjunta de V e C. 

b. Obtenha as funções de probabilidade marginais. 

c. Calcule os valores esperados dessas variáveis. 

d. As variáveis são independentes? Justifique. 

e. Se a escolha acima resultou em V = 2, qual é a probabilidade da palavra 
“mais” ter sido a escolhida. 


20. A tabela a seguir representa a função de probabilidade conjunta de duas 
variáveis aleatórias independentes. 
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a. Complete a tabela. 
b. Determine E(X), E(Y) e Cov(X,Y). 
c. Calcule Var(X + Y). 


21. Sorteia-se ao acaso um dentre os números 9, 12, ISNe 27 e é feita a 
decomposição do número sorteado em fatores primos. $ejam D e T, as 
variáveis que representam, respectivamente, o número de yezes em queo2eo 
3 aparecem na decomposição. 

a. Obtenha a conjunta entre De T. 
b. Calcule a covariância e o coeficiente de correlação entre as variáveis. 


22. As variáveis F e M representam, respectivamente, o número de anos para 


completar o ensino fundamental e o ensino médio. Numa certa cidade, a tabela ` 


a seguir é adotada para a função de probabilidade conjunta dessas variáveis. 
Determine o valor esperado e a variância da variável F + M que representa o 
total de anos até completar o ensino médio. 


23. Sejam X ~ b(5;0,5) e Y ~ b(3;0,2) independentes. Determine o valor 
esperado e a variância da variável 2X — 3Y. 


24. A tabela a seguir representa a função de probabilidade conjunta entre o 
número de empregos desde que começou a trabalhar (E) e a idade do primeiro 
emprego (T), de jovens em uma pequena cidade do Estado de São Paulo. 


[5 [0,02/0,02]0,02 
[6 [0,07[0,09/0,12 [0,15] 
[7 [6,10] 


DE [00 


N 
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a. Determine o valor esperado e a variância da variável X = I — 18. 
b. Idem para Y = E — ue: 
c. Obtenha a conjunta entre X e Y. 
25. A conjunta das variáveis aleatórias independentes X e Y é parcialmente 
apresentada a seguir: 


a. Complete a tabela. 
b. Calcule o valor esperado e a variância de 2X — Y. 


26. Sendo X1, Xə e X; variáveis aleatórias independentes, seguindo o modelo 
Bernoulli de parâmetro p, pergunta-se: 
a. Qual é a função de probabilidade de Xı + X2 + X3? Você reconhece essa 
variável? 
b. Qual é o valor de Var(%+%+%)7 


27. Sabe-se que X e Y são independentes e assumem, respectivamente, os valores 
l, 2 e3 e 0, 1 e2. Admita conhecidas as probabilidades P(Y = 0) = 1/3, 
P(X =3) =1/3, P(X =1,Y =0) = 1/96 P(X =8,Y = 2) = 1/9. 

a. Construa a tabela de dupla entrada para X e Y. 
b. Calcule E(X x Y) e Var(X +Y). 


28. Um paleontólogo acredita que o número de minerais presentes em certo tipo 
de rocha pode influir na chance de se encontrar fósseis perto de uma indústria 
calcária. Através de amostras de rocha obtidas em levantamentos de campo, ele 
obteve a distribuição conjunta para as variáveis Z:número de minerais 
presentes e W: variável que assume 1, se for observada a presença de fóssil e O 
caso contrário. 


a. Calcule P(W = 0,2 > 1). 
b. Encontre as distribuições marginais para Z e W. 
c. Qual a esperança de Z? 
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d. A suspeita do paleontólogo é confirmada pelos valores apresentados na 
tabela? Justifique sua resposta quantitativamente. 


29. Sejam U = Y? e V = X +Y, com a função de probabilidade conjunta entre 
X e Y dada na tabela a seguir: 


a. Obtenha a conjunta de U e V. 
b. Calcule P(U = 4| V =1). 
c. Determine Cov(U, V). 


30. Considere duas variáveis aleatórias discretas A e B/ Admita que A assume 
somente os valores az, az e az, enquanto B os valores/b; e by. Sabemos que: 


P(A = œ) =0,2; P(A=a)=05;P(B=b)=0,; 
P(A = a, B = b) = 0,12 e P(B = b | A = a3) = 0,5. 


a. Construa a tabela de dupla entrada entre A e B. 
b. As variáveis são independentes? Justifique. 
c. Calcule P(A = a, | B = bı). 


31. Sejam X e Y independentes com função de probabilidade G(0,5). Determine 
o valor esperado e a variância de: 
a S=X+Y. 
b.D=X-Y. 


32. Baseando-se nas projeções de preço de duas matérias primas, Mı e Ms, 
pretende-se estudar a viabilidade econômica do lançamento de um certo 
produto. A função conjunta de probabilidade com os preços (em reais) é 
apresentada a seguir. 


a. Determine o preço médio e a variância das matérias primas. 
b. O produto usa 2 unidades de M; e 3 de M3. Qual é seu custo médio? 
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c. Se o produto deverá ser vendido por 50 reais, qual será o lucro médio por 
unidade? 


33. A caixa I contém uma bola vermelha e uma azul, enquanto que a caixa II 
contém duas vermelhas e uma azul. Um experimento consiste em escolher uma 
bola ao acaso da caixa I e passar para a caixa Il e, em seguida, escolher uma 
bola da II e passar para a I. Sejam X e Y os números de bolas vermelhas nas 
caixas Ie II, respectivamente. 

a. Calcule a conjunta de X e Y. Elas são independentes? 
b. Comente o que ocorre com a variável X + Y. 
c. Determine a média e a variância para cada uma das variável X e Y. 


34. Considere duas variáveis aleatórias independentes U-Po(2) e V-G(0,3). A 
partir dessas variáveis definimos outras duas da seguinte forma: 


—1 seV=0; 
x=(1 SL e Y={0 seV=1; 
pi 1 se V > 2. 


a. Construa a conjunta de X e Y e determine Cov( X,Y). 
b. Determine o valor esperado e a variância de 2X — 3Y. 


35. Duas moedas são lançadas simultaneamente. Uma delas é equilibrada e a 
outra tem probabilidade 2/3 de sair face cara. Considere as variáveis U: total 
de caras observadas e V é uma Bernoulli que assume valor 1 se as duas faces 
são iguais. 

a. Determine a conjunta de U e V e verifique se são independentes. 
b. Calcule a média e a variância de 2U — V. 


36. (Use o computador) Com os dados das variáveis altura e peso da Tabela 1.1 

do Capítulo 1: 

a. Verifique o grau de associação através do cálculo do coeficiente de 
correlação. 

b. Obtenha a média e o desvio padrão para cada uma das variáveis. 

c. Calcule o coeficiente de correlação entre as variáveis peso e altura 
padronizadas. Os valores da variável padronizada são obtidos subtraindo-se 
a média e dividindo-se pelo correspondente desvio padrão. Compare com o 
resultado encontrado no item (a). 


37. (Use o computador) Considere os dados apresentados no Exercício 23 do 
Capítulo 1, onde, no item (b) foi definida a variável Etário. 
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a. Crie uma tabela de dupla entrada, contendo Etário nas linhas e Coag nas | 


colunas. Com base em tal tabela, reavalie se a presença de coágulos é 
diferente dependendo da faixa etária. 

b. Suponha que um paciente é escolhido ao acaso. Qual a probabilidade de que 
a pessoa apresentasse coágulos no momento de admissão? E uma pessoa de 
faixa etária mais alta? 

c. Você diria que Coag e Etário são independentes? Por quê? 


38. (Use o computador) Novamente com os dados do Exercício 23 do Capítulo 1, | 


considere agora a variável Cura criada no item (c). 

a. Crie uma tabela de dupla entrada com Cura nas linhas e Tratam nas colunas, 

b. Com base na tabela do item (a), você diria que neste caso rapidez da cura 
depende do tipo de tratamento considerado? Justifique. 

c. Qual a probabilidade de que uma pessoa selecionada ho acaso tenha cura 
rápida, dado que recebeu tratamento do tipo I ? 

d. Qual a probabilidade de uma pessoa ter recebido tratamento do tipo I, dado 
que teve cura normal? 


39. (Use o computador) Responda os itens a seguir, baseado nos dados de | 


incidência de câncer apresentados no Exercício 24, Capítulo 1. 

a. Utilizando a mediana da variável GL, classifique os pacientes em dois 
grupos, de alta e de baixa taxa de glicose. Denote essa nova variável por 
Clagl e construa uma tabela de dupla entrada entre Clagl e ALB. Você diria 
que as duas variáveis estão relacionadas de alguma forma? 

b. Considere os valores da variável Idade em três grupos: jovem com até 25 
anos (inclusive), meia idade para indivíduos com idades entre 25 e 55 anos 
(inclusive) e senior para maiores de 55 anos. Construa uma tabela de dupla 
entrada para estudar o comportamento desses grupos em relação à 
concentração de fosfato, tirando as conclusões pertinentes. 

c. Escolhendo-se um paciente ao acaso, qual a probabilidade de que ele seja do 
grupo falso-negativo, dado que tem mais de 50 anos? E ter acima de 50 
anos, dado que não é do grupo falso-negativo? 


40. (Use o computador) Utilize as informações do arquivo aeusp.txt, introduzido 
no Exercício 26 do Capítulo 1. 
a. Crie uma tabela de dupla entrada com as variáveis Comun e Renda. Você 
diria que existe associação entre elas? 
b. Repita o item (a) para as variáveis Reproce e Trab. 
c. O que pode ser dito da associação entre número de residentes (variável 
Resid) e idade que começou a trabalhar (variável Itrab)? 


Capítulo 6 


Variáveis Aleatórias Contínuas 


6.1 Introdução 


Neste capítulo, discutiremos a caracterização de variáveis cujos possíveis 
valores ocorrem aleatoriamente e pertencem a um intervalo dos números reais: 
variáveis aleatórias contínuas. Renda, salário, tempo de uso de um equipamento, 
comprimento de uma peça e área atingida por certa praga agrícola são exemplos 
de quantidades que podem ser modeladas por variáveis aleatórias contínuas. De 
forma semelhante aquela desenvolvida para variáveis aleatórias discretas, 
precisamos estabelecer, para as contínuas, a atribuição de probabilidades às suas 
diversas realizações que, neste caso, podem assumir um número infinito de 
valores diferentes. Abordamos esta questão no próximo exemplo. 


Exemplo 6.1: Estudos anteriores revelam a existência de um grande lençol de 
água no subsolo de uma região. No entanto, sua profundidade ainda não foi 
determinada, sabendo-se apenas que o lençol pode estar situado em qualquer 
ponto entre 20 e 100 metros. 

Vamos supor que escolhemos, ao acaso, um ponto nessa região e 
dispomos de uma sonda que, ao fazer a perfuração, detecta com precisão a 
profundidade do reservatório de água. Denotamos por X a variável aleatória 
representando a profundidade. 

Notemos que, apesar de X poder ser qualquer número entre 20 e 100 
metros, o instrumento, com que trabalhamos, pode não ser tão preciso como 
gostaríamos. Por exemplo, uma profundidade de 32,571 metros poderia ser 
medida por 32,6 metros. Vamos assumir, entretanto, que temos um instrumento 
ideal que não faz aproximações. Nessas condições, podemos supor a sonda 
acoplada a um instrumento indicador da profundidade e um dispositivo que, 
quando a sonda encontrar água, provoque a imediata interrupção da perfuração. 

Uma vez que não temos informações adicionais a respeito da 
profundidade do lençol, é razoável assumirmos que a sonda pode parar em 
qualquer ponto entre 20 e 100 metros, sem que tenhamos motivos para privilegiar 
essa ou aquela profundidade. Assim, consideraremos todos os pontos como 
igualmente prováveis. Se utilizarmos a mesma idéia de atribuir a cada possível 
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ponto uma probabilidade, teremos uma dificuldade extra, pois eles pertencem a 
intervalo [20, 100], em que existem infinitos números reais. Assim, se cada u 
deles tiver, individualmente, probabilidade maior que zero, a soma das 
probabilidades será igual a infinito e não 1, como requer a definição da função de 
probabilidade. Em geral, em situações como esta, não é de interesse considerar 
um único valor para a variável aleatória, mas intervalos de valores na atribuição 
de probabilidades. Neste caso, sabemos que o espaço amostral corresponde ao 
intervalo [20, 100] e as profundidades são igualmente prováveis. Suponha, por u 
momento, que dividimos o espaço amostral em 8 intervalos de comprimento 10, 
Logo, é razoável atribuir aos intervalos a probabilidade 1/8, correspondendo à 
relação entre o comprimento de cada um deles e o comprimento /do espaço. 
amostral. Isto é, 10 para 80 ou 1/8. Assim, com a divisão em 8 faixas de igual 
comprimento e sem intersecção entre elas, teremos os intervalo [20, 30), [30, 
40),..., [90, 100] todos com a mesma probabilidade 1/8, pois todos tem o mesmo 
tamanho. 

Para construir um histograma, nos mesmos moldes do Capítulo 1, 
podemos supor que 1/8 é a freqiiência relativa da ocorrência de cada um dos: 
intervalos. As ordenadas do gráfico são as densidades, calculadas de modo que a 
área de cada retângulo seja a fregiência relativa (probabilidade) do intervalo. 


Densidade 


1/80 


20 30 40 50 60 70 80 90 100 


Note que, dada as características do problema, a divisão em 8 intervalos 
produziu o mesmo valor de densidade de 1/80 para todos eles. Se dividirmos o 
intervalo [20, 100] em 16 faixas iguais, utilizando o mesmo argumento anterior, 
lemos que os intervalos [20, 25), [25, 30), [30, 35), ..., [95, 100] terão todos a 
mesma probabilidade 1/16. O histograma correspondente será: 
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Densidade 


eo aa 
1/16/1/16 
0 30 40 50 60 70 80 90 10 


2 


o 


O histograma mostra que, apesar de termos diferentes intervalos, a 
densidade permanece com o mesmo valor, igual a 1/80. l 

Podemos continuar esse procedimento, 'aumentando cada vez mais o 
número de faixas, com a conseqüente diminuição das suas amplitudes de tal forma 
que, em uma situação teórica com infinitos intervalos, temos o seguinte 
histograma: 


Densidade de 
Probabilidade 


1/80 


Estamos agora em condições de caracterizar, completamente, a atribuição 
de probabilidades para o caso contínuo. Ela será definida pela área abaixo de uma 
função positiva, denominada densidade de probabilidade. Observe que a 
densidade em si não é uma probabilidade, mas uma função matemática que nos 
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. 


wxilia na atribuição de probabilidades. Assim, para a variável aleatória contínua 
X representando a profundidade do lençol de água, a função densidade f é dada 


Or 
fj = ki para 20 < x < 100; 
0, para x < 20 ou x > 100. 


Tendo em vista que, nesse exemplo, a função densidade é bastante 


imples, a probabilidade de que a profundidade do lençol esteja em um dado à 


ntervalo pode ser calculada com o uso de áreas de figuras planas. Assim, para 
bter a probabilidade de uma profundidade pelo menos igual a 25, mas inferior a 
9, calculamos a área do retângulo: 


1/80 


, portanto, P(25 < X < 29) = 4/80. . l o 


Considerando o caso geral, vamos nos ocupar agora em formalizar as 
Ićias discutidas anteriormente. Faremos isso através da definição apresentada a 
eguir. 
efinição 6.1: Função densidade de probabilidade 


Dizemos que f(x) é uma função contínua de probabilidade ou função 
ensidade de probabilidade para uma variável aleatória contínua X, se satisfaz 
uas condições: 


i) f(x) > 0, para todo x € ( — 00,00); 


ii) A área definida por f(x) é igual a 1. 
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Com o auxílio do cálculo diferencial e > integral, podemos caracterizar a 


condição ii) através de 
J Fojdsr=1. 


Da mesma forma, para calcular probabilidades, temos que para a < b, 


P(a< X <b)= “Fade; 


a integral, acima, indica a área sob a função f definida pelo intervalo [a, b]. 

Note que, pela forma como atribuímos as probabilidades no caso 
contínuo, teremos área zero sob qualquer valor individual, isto é, P(X = k) = 0 
para qualquer k. Portanto, em se tratando de variáveis aleatórias contínuas, a 
probabilidade de ocorrência de um valor isolado é sempre zero e, 
consequentemente, as probabilidades calculadas sobre os intervalos 
[a,b], [a, b), (a, b] e (a, b) são as mesmas, para quitisquer valores de a e b. 


Exemplo 6.2: Arqueólogos estudaram uma certa região e estabeleceram um 
modelo teórico para a variável C, comprimento de fósseis da região (em cm). 
Suponha que C é uma variável aleatória contínua com a seguinte função 
densidade de probabilidade: 


1 
Sge +1) se0<c<20; 
Fe) = 40:10 
0 caso contrário. 


É imediato observar que f(c) é positiva. Através do gráfico da função, 
apresentado a seguir, podemos verificar com auxílio da fórmula da área de 
trapézio que 


aa 


área sob f(c) = £—— x 20 =1. 


3 

5 40 

2 

Concluímos que f(c) é efetivamente uma densidade. Tendo em vista a forma 
simples de f(c), o cálculo de probabilidades de interesse para esse exemplo 
poderá ser feito sem dificuldades através de áreas. 
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E ou = ji 


ë, assim, temos que P(C < 8) = 7/25. o 


Exemplo 6.3: Num teste educacional com crianças, o tempo para a realização de 
uma bateria de questões de raciocínio verbal e lógico é medido e anotado para ser 
A probabilidade de um fóssi . comparado com um modelo teórico. Este teste é utilizado para identificar o 
comprimento inferior ? ião, s desenvolvimento das crianças e auxiliar a aplicação de medidas corretivas. O 
modelo teórico considera T, tempo de teste ,em minutos, como uma variável 

aleatória contínua com função densidade de probabilidade dada por: 


Jæ) m(t—-4), se8<t< 10; 
fO=4 do se 10 < t < 15; 


E caso contrário. 


O w 


3/40 


O gráfico da função densidade é apresentado a seguir. Deve ser notado que, pela 
definição de f(t), ela se anula para t < 8 ou t > 15. 


1/40+1/50 


Jo 


3/20 


20 x 


E. ta “7. | 
O cálculo da Probabilidade envolve a soma de duas áreas: o 
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Solicitamos ao leitor que verifique que a função f(t) satisfaz a definição 


de densidade. Para calcular P(9 < T < 12), vamos obter a área sob f(t) no | 


intervalo (9, 12]: 


Ft) 


3/20 
5/40 


1/10 


Segue, sem maiores dificuldades, que P(9 < T < 12) = 7/16, valor esse obtido 
pela soma do trapézio definido no intervalo (9, 10) com o retângulo determinado 
pelo intervalo [10, 12] (veja a figura). 


Através do uso de integral, essa mesma probabilidade seria calculada da 
seguinte forma: 


12 
P(9<T<12)= | ftdt 
9 


10 12 
= | ftdi+ | ftdt 
9 10 
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A aplicação da integral foi dividida em duas partes, pois a função f(t) é diferente 
nos intervalos (9, 10) e [10, 12]. 


Vamos, agora, apresentar as expressões para valor esperado, mediana, 
moda e variância no caso contínuo. A interpretação de cada uma dessas grandezas 
é semelhante àquela discutida no caso discreto. Algumas das expressões são 
alteradas devido à nova forma de atribuição de probabilidades. 


Definição 6.2: Medidas de posição para variáveis aleatórias contínuas 


O valor esperado ou média da variável aleatória contínua X, com função 
densidade dada por f(x), é dada pela expressão: 


E(X)=pu= [ztei 


A mediana é o valor Md que tem a propriedade de: 


P(X > Md) > 0,5e P(X < Md) > 0,5. 
A moda é o valor Mo tal que, 
f(Mo) = max f(z). 
O 


Observe que a definição de mediana é idêntica ao caso discreto. A média 
teve sua expressão alterada com a substituição da somatória pela integral e de p; 
por f(x)dx. Para a moda, precisamos tomar o máximo da função densidade e, 
como antes, ela não é necessariamente única. A notação para o caso contínuo será 
a mesma utilizada para as variáveis aleatórias discretas. 
Definição 6.3: Variância para variáveis aleatórias contínuas 
Para uma variável aleatória X com densidade f(x), a variância é dada por 
o0 
2 2 
= | (œp? fede. 
—00 
O 


Como no caso discreto, a variância é a medida de dispersão mais utilizada 
na prática. Aqui podemos, também, utilizar a expressão alternativa 


o? = E(X?) =W, 
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com E(X?) sendo calculado como: 


E(X?) = fr f(x) de. 


Exemplo 6.4: A variá . 
demi A ris variável C apresentada no Exemplo 6.2 tinha a segui 


1 ( co 
F(c)=+4 4010 
0, caso contrário. 


+1), se0<c<2; 


Vamos determinar a média e a variância de C. Temos 
; , 


1 3 2 120 
„=f m (m + is Ear 
0 0'10 400 3) 402) ~ 
0 
20 35 
= a fes 
3 3 
Para a variância, calculamos primeiro E(C?): 
20 
1 20 
HO)= [Cited LP topo 
0 40 ` 10 400 4 403 — 
200 500 : 
= 100 + =D. . 
Então, 10 
2 500 2 
B= fios pt sean (5) = = = 30,56 cm? 


Logo, ami padrão é Tg = y 30,56 = 5,53 cm. 

Ni Pign ee diretamente do gráfico da função densidade e é igual a 20, 
raa a mediana, notamos inicialmente que a densidade é uma função 
contínua com mesma expressão no intervalo entre O e 20. Dessa form: a 
atender a condição da definição de mediana, basta resolver a smagi iik 


P(C > Md) = 0,5. 
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Assim, 
20 92/20 20 
1 ,E le 1 
= |retildi= = ps = 0,5. 
fã (o de= 07! 10, 
Resultando na equação do 20. grau: 
Md? + 20Md — 400 = 0, 
cuja solução é Md = 12,36 (o outro valor é abandonado por ser negativo). O 


As propriedades do valor esperado e da variância apresentadas para 
variáveis aleatórias discretas permanecem válidas e a verificação pode ser feita 
através das propriedades da integral. A distribuição conjunta de duas ou mais 
variáveis aleatórias contínuas é definida através da função densidade conjunta de 
probabilidade. As idéias básicas são as mesmas do caso discreto, porém requerem 
um melhor conhecimento de cálculo diferencial e integral, envolvendo integrais 
duplas. Não desenvolveremos esse tópico e recômendamos ao leitor interessado a 


consulta às referências. 
Exercícios da Seção 6.1: 
l. Verifique se as expressões a seguir são funções densidade de probabilidade 
(assuma que elas se anulam fora dos intervalos especificados). 
a. f(£)=3xr, essi 
b. f(z) = z?/2, £ > 0. > l ' 
c. fi) = (e -3/23 22 2 K 
d. f(z) =2,0<r<2 (/ 
, _ JQ+2)/4, se—2< x< 0; 
& finfe E se 0<z<2. 
f. f(x) = =r, se-r<zr<0. 


2. O tempo, em minutos, de digitação de um texto por secretárias experientes é 
uma variável aleatória contínua X. Sua densidade é apresentada a seguir. 


1/4, se0<zr< 2; 


f(x) = $ 1/8, se2<xr< 6; 
0, caso contrário. 
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Determine: 
a P(X>3). 


bPI<x<4 o 

cPX<3X>I). 

d. Um número b tal que P(X > b) = 0,64 

e. O valor esperado, a variância e a moda de X. \ , 


fa) = fin-i, se 0,5<y< 3; 
0, caso contrário. 
Obtenha: 
a P(Y < 0,8). 
b. P(Y > 1,5| Y > 1). 
c. O valor esperado e a variância de Y, 
d. A mediana de Y, 


4. O gráfico abaixo representa a densidade de uma variável aleatória X 
fx) 


E i 
a, Obtenha o valor de a. 7 


b. Determine P(X >0|X< 3). g 
€ Calcule Md(X), E(X) e Var(X). 
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5. Numa certa região, fósseis de pequenos animais são freqüentemente 
encontrados e um arqueólogo estabeleceu o seguinte modelo de probabilidade 
para o comprimento, em centímetros, desses fósseis. 


Às, 4<2<8; 
al 3 . 
Do 1Ú Sm É 1l; 
0 


caso contrário. 


a. Faça um gráfico da função densidadé 

b. Para um fóssil encontrado nessa região, determine a probabilidade do 
comprimento ser inferior a 6 centímetros? E de ser superior a 5 mas inferior e 
a 10,5 cm? Ei 

c. Encontre o valor esperado para o comprimento dos fósseis da região. 


? 


6.2 Principais Modelos Contínuos 


Apresentamos, nesta seção, os principais modelos teóricos para variáveis 
aleatórias contínuas. Vimos que, para caracterizar completamente uma variável 
aleatória contínua, precisamos fornecer sua função densidade de probabilidade 
que, segundo sua definição, é uma função positiva e com integral igual a 1. 
Definição 6.4: Modelo Uniforme Contínuo 


Uma variável aleatória X tem distribuição Uniforme Contínua no 
intervalo [a,b], a < b, se sua função densidade de probabilidade é dada por: 


1 
fæ) = 4 bra 


0, caso contrário. 


axla sb; 


Usaremos a notação X ~ Uļa,b] para indicar que X segue o modelo 
Uniforme Contínuo no intervalo considerado. 

Note que não há restrição de valores para a e b, exceto o fato de a < b. A 
Vigura 6.1 mostra a densidade do modelo Ufa, b], para a,b > 0. 0 
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f) 


a b x 


Figura 6.1: Densidade Uniforme Contínua. 


O modelo Uniforme pressupõe que os valores possíveis para a variável 
aleatória têm todos a mesma probabilidade de ocorrência. Seu valor esperado 6 
sua variância são obtidos através do cálculo de integrais, de tal forma que: 


-f 1 ia 1 x? 
Aar M r pona 


b 
E(X?) =f a 1 Ea 1 K H 


i = b? — q? (a+b, 

, 20A SA 

' — bat = at rara? 

a 3(b qo a) | 3 ? 
cg 


b-a ` b-a3 


logo, : 

b +ab+a? a+by2 | (b-a) ) 

2 = 2 qr 2 Á- E a = k 
PS 3 ( 2 ) 12 


Exemplo 6.5: Com o objetivo de verificar a resistência à pressão de água, og 
técnicos de qualidade de uma empresa inspecionam os tubos de PVC produzidos, 
Os tubos inspecionados têm 6 metros de comprimento e são submetidos a grandes - 
pressões até o aparecimento do primeiro vazamento, cuja distância a uma das 
extremidades (fixada à priori) é anotada para fins de análise posterior. Escolhe-se 
um tubo ao acaso para ser inspecionado. Queremos calcular a probabilidade de 
que o vazamento esteja, no máximo, a 1 metro das extremidades. 

Vamos denotar por X a variável aleatória que indica a distância 
correspondente ao vazamento. Admitindo igual probabilidade de ocorrência em 


6.2 Principais Modelos Contínuos 179 


todos os pontos, temos que X ~ U[0, 6], com função densidade de probabilidade 
dada por 

1/6, se0 <a < 6; 
fin) = À 0, caso contrário. 


Para calcular a probabilidade de X e {[0, 1] U [5,6]}, podemos obter as 
úrcas dos dois retângulos hachuriados na figura a seguir. 


fx) 


O) 1 5 6 


Segue, sem maiores dificuldades, que a probabilidade desejada é 1/3. 4 
Esse mesmo cálculo poderia ser feito através de integrais da seguinte 


forma: 


P(X é {[0,1]U [5,6]}) = P(0 < X < 1) + P(5 < X < 6) 


II 
z 
È 
pm 
a 
8 
+ 
— 
om 
a 
8 


gil x|8 
=—| +- 
Glo 6l5 
ji 6 5. 
=y ttia 


Note que os intervalos [0,1] e [5,6] são disjuntos e, portanto, a 
probabilidade da sua união é & soma das probabilidades de ocorrência de cada 


H \ o 


intervalo. 
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Definição 6.5: Modelo Exponencial 


Uma variável aleatória contín 


ua X, assumin a : 
segue o modelo Exponencial com par ? do valores não negativos 


ametro a > Q se sua densidade é 
nO DE Daa % > 0; 
0, caso contrário. 


a densidade está Tepresentada graficamente na 
~ Exp(a) para indicar que X tem distribuiçã 
fæ) 


Figura 6.2 e adotaremos a notação 
o Exponencial de parâmetro a. O 


Figura 6.2: Densidade Exponencial. 


integral corres ad is ial, precisamos res 
gri pondente, já que não teremos as figuras geométricas sim s s a 
m, pies dos 


b 
P(a< X <b) = / ae fêdo= — earb — eaa 

À =ê — e 

Note que a inclusã ã 
inclusão ou não d 
) os extremos ã á 

pd a e b não altera o cálculo efetuado 
Para obter a média e a variância, será n 


= a i ecessário apli 
partes, porém, não vamos fazer esse cálcu e 


ar a integração por 
O e, apenas, apresentamos as 
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expressões finais. Temos, para X ~ Exp(o), 
u=1/a e °? =1/a@. 


Exemplo 6.6: Uma indústria fabrica lâmpadas especiais que ficam em operação 
continuamente. A empresa oferece a seus clientes a garantia de reposição, caso a 
|mpada dure menos de 50 horas. A vida útil dessas lâmpadas é modelada através 
da distribuição Exponencial com parâmetro 1/8000. Determine a proporção de 
trocas por defeito de fabricação. 

Cada lâmpada terá seu tempo de duração definido pela particular 
realização da variável aleatória. Isto é, a vida útil da lâmpada pode ser pensada 
como um valor escolhido de acordo com a densidade Exponencial de parâmetro 
1/8000. Representemos, pela variável aleatória 7, o tempo de vida da lâmpada, e 
assim T ~ Exp(1/8000). A probabilidade desejada será 

P(T < 50) = i. dart! -e ii = 0,006 
~ Jo 8000 E Ro 


Dessa forma, a proporção de trocas por defeito de fabricação será de 
nproximadamente 0,6%. Esse número é relativamente pequeno, o que não é 
surpresa, tendo em vista que, como o parâmetro é œ = 1/8000, a duração média 


das lâmpadas é u = 1/a"= 8000 horas. m 


A distribuição Exponencial tem sido amplamente utilizada nas áreas de 
física, engenharia, computação e biologia, entre outras. Variáveis como a vida útil 
de equipamentos, tempos de falha, tempos de sobrevivência de espécies e 
intervalos entre solicitações de recursos são algumas das quantidades que têm 
sido modeladas, com bons resultados, pela Exponencial. Essa densidade tem, 
ainda, a vantagem de ter propriedades matemáticas interessantes, conforme 
veremos no próximo exemplo. 


Exemplo 6.7: O intervalo de tempo, em minutos, entre emissões consecutivas de 
uma fonte radioativa é uma variável aleatória com distribuição Exponencial de 
parâmetro a = 0,2. Vamos calcular a probabilidade de haver uma emissão em um 
intervalo inferior a 2 minutos. Temos, 


2 
P(X « 2) = Ji 0,26% de= ee i =e y = 0,33. 
0 : 


g EE . . . 
Calculemos, agora, a probabilidade do intervalo ser superior ou igual a 7, 
sabendo-se que ele é superior ou igual a 5 minutos. 
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Dentre todos os modelos teóricos, sejam contínuos ou discretos, o mais 
importante é o modelo Normal. Ele é muito utilizado em aplicações e também 


serve como aproximação para muitas outras distribuições. 


P(X >| X >5)= EX 27, X25)_P(X>7) 
: E = PX35) “PAS” 


Do 
o J 0,2 e70:2x dx emtá 


JE 0,2 e022 dy ~ e Definição 6.6: Modelo Normal 


Dizemos que uma variável aleatória contínua X tem distribuição Normal 
2, se sua função densidade é dada por: 


“Com parâmetros ge o 


P(X >7|X>5)= i í m 
Como vere di | Z ) P(X > 2)... Fl) = Es para — 0 <L<O0. 
mos, adiante, isto não foi coincidênc: Ooy 2T 
propriedade da densidade O1 coincidência mas sim uma importan 
h Exponencial. Em palavras, a informação do qui t Usaremos gm X p eA (ut, ea para pe a tem na éra 
com parâmetros u e o?. A densidade é representada na Figura 6.3. i 


Algumas propriedades da densidade da Normal podem ser, facilmente, 


observadas de seu gráfico: 
A característica d A i) f(x) é simétrica em relação à pu; 
xii a e permitir a x i Es 
probabilidades é uma propriedade an ie da origem no cálculo d l ii) f (x)>0 quando x> oo ; 
conhecida como aa stante Importante da Exponenci l iii) o valor máximo de f(x) se dá para x = pu. 
nine falta de memória. Ela é a única distribuição É e 
priedade, conforme verificamos a seguir. Para tal ção contínua com essa 


assumir que a origem do t é 
tempo u . >P anto, a diferen a == H 
po que devemos considerar para calcular a probabilidade ete 2 seria 


fœ 


temos que 
P(X 2t+alX > s) = PKZ tteX >a) P(X>t+s) 
P(X>5) = Pz 
e Sisa e dx — Ter Eis o e ts) 
[Parade > e S ra 


Ed 8 


a, ál l 


He à 
- Figura 6.3: Densidade Normal. 


Pode-se ainda verificar que os parâmetros u e o? representam, 


respectivamente, a média e a variância da distribuição. A demonstração requer 
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algumas manipulações de integral e o leitor interessado potle consultar 4 Por exemplo, para X ~ M29), temos ! 
referências no final do texto. Assim, quando indicamos que X ~ N (u, 0? 2-2 X-2 5-9 ) 
ago À : Ei SR Z < 1} = 0,3413; 
imediatamente que E(X) = | e Var(X =. P(2<X<5)=P( A < V9 i Vo )=P(0< A) i 
No cálculo de probabilidades para variáveis contínuas, devemos resolve 
a integral da função densidade no intervalo de interesse, isto é torrespondendo à área sombreada no gráfico: 
: 1 — E? fe) 
P(a < X <b) = — e % dy 
a 0/27 


conduz sempre ao cálculo de probabilidades com uma variável de parâmetro. 
(0, 1), isto é, média 0 e variância 1. | 

Considere X ~ N(u, o?) e defina uma nova variável Z = Xue, Pel 
propriedades do valor esperado e da variância, segue que 


X — 1 1 z 
az= = OS ZEX- p) = HE- =o; o | 
X- P(O<X<9 » Usamos a simetria da Normal (ver figura a 

Var(Z) = Var(Ž =) = =5Var(X =u) = =Var(X) = Para obter P(0 < ) 


seguir): 
Pode-se ainda verificar que essa transformação não afeta a normalidade e, assim, PO<X< 2) = pe =2 <Z< 2— É, = P(—2/3< Z < 0) 
a variável aleatória Z terá distribuição N(0,1) e será denominada de Norn = 3 3 
Padrão ou Normal Reduzida. Para determinar a probabilidade de X € la, b = P(0 < Z < 2/3) = 0,2486. 


procedemos da seguinte forma: 
PEEKS- Pp at panos 


=P( CE e du 
T o o 


ft) 


Probabilidade de estar acima (ou abaixo) de zero é 0,5. Como probabilidade é 
sempre um número entre 0 e 1, a tabela contém apenas a parte decimal. 


eee 


o TE 
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ly 
0 ? ay n 6 
Podemos ainda calcular as probabilidades de intervalos com extrem P(X < t) = 0,25. 
negativos, utilizando os correspondentes intervalos na parte Positiva, Um ou 
recurso importante no uso da tabela é a utilização do complementar. Por exempla Então, 
F — 15 
X-u 3-9 | X-15 t-15 Jat gm 
Pse > 1) = P(Z > 1/3) ( <> )=P(g< 
"0 É 3 v4 : v4 va 
A A = — <x =) = — = x $ 
Z E kma CET ERETT 0,1293 = 0,3707 Com o uso da tabela (e alguma reflexão) obtemos yoi 
A tabela também pode ser utilizada no sentido inverso, isto é, dado u t-15 —0,67 = t = 13,66. e t 
certa probabilidade desejamos obter o valor que a originou. Por exemplo, qùan 4 Diii i 


vale c tal que P(0<Z< é) = 0,4? Procurando, no corpo da tabela, 


i icarã ados antes de, 
probabilidade que mais se aproxima de 0,4 é 0,3997; correspondendo a 1,28 qu dos pacientes ficarão cur 


Concluímos, então, informando que 25% 


O) imadamente, 14 dias. . pa P eria (6) 
p” Considere agora que 100 pacientes são escolhidos ao ana pl a 


ias? Obtemos, 
Amero esperado de doentes curados em menos de o mera 
Inicialmente, a probabilidade de um paciente genérico ser cura 


Suponha, agora, que queremos encontrar d tal que P(Z > d) = 0, 


Observamos que d precisa ser negativó, pois a Probabilidade desejada é maio 
1/2, que é o valor de P(Z>0). Assim, o intervalo (d,0) precisa t 


tom cura em menos de 11 dias e é multi 
Temos, os j 4 149, | a 
t eaa 5y = P(Z < —2) = 0,0228. 
P(X <11) Z A 
inferi 11 
lintão, para 100 pacientes, o número esperado com tempo de cura inferior a 
dins será de 100 x 0,0228 = 2 pacientes. 


Na Tabela 6.1 apresentamos as ex 
vs modelos contínuos estudados até aqui. 


probabilidade 0,3. Da tabela, segue que —d = 0,84 e Portanto d = —0,84, 


Exemplo 6.8: Doentes, sofrendo de certa moléstia, são submetidos a u 
tratamento intensivo cujo tempo de cura foj modelado por uma densidade Normal 
de média 15 e desvio padrão 2 (em dias). IL s 

Seja X o tempo de cura e, Portanto, temos X ~ N(15,4). 

Caso desejemos saber que proporção desses pacientes demora mais de 17 
dias para se recuperar, calculamos 


— 17— 
E 5) = P(Z > 1) = 0,1587. 
pa Å y / 


> 
E ia 


A probabilidade de um Paciente, escolhido ao acaso, apresentar tempo de 
cura inferior a 20 dias será dada por 


pressões da média e da variância para 
P(X >17) = P( | 


| > 
s fi iância. 
Tabela 6.1: Modelos contínuos - valor esperado e variân 


P(X < 20) = p= q 20-15 


v4 v4 


Uma questão interessante seria saber o tempo máximo necessário para q 
recuperação de 25% dos pacientes. A Proporção de cura para o conjunto de 
pacientes é “Interpretada como a probabilidade para um único paciente, 


) =P(Z<2,5) = 0,9938. 
E, 5 PRTA 28 A 


), HI- 
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bancários com problema 
o s. Sendo X a 
probabilidade desejada será essa variável, temos X ~ b(200; 0,3) e 


200 200 
P(X > 50) = >. ( k Josst oro 
k=50 


Ao estudar a Binomi i 
mial, vimos 
E(X) = np = 60 e Var(X) = Te Se Xm b(200;0,3) entã 
deta Koa Á e i E o e p) = 42. A idéia é considerar aadis 
i : ncia i ari 
aproximar. Isto é, utilizamos Y ~ Mu = EE pea que desejamos 
ii se > modo que: 


Fa - 
60.50 60 


vaz © ya 


P ~ 
(X > 50)= P(Y > 50)=P( )=P(Z>-1,54)=0,9389 


histograma da Bi i 
nomial e a densidade d E 
baseada no Teor dade da Normal utilizada na a roximaçã 6 
e (rd so o do Limite, um importante Gi ser Ed am 
: geral, quanto mais simétrica for a função de probabilid a na 
(à ade da 4 
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Hinomial, melhor será a aproximação. Nos casos em que certa assimetria estiver 
presente, valores crescentes de n fornecerão melhores resultados. 


Densidade de 
Frequência 


0,02 


0,00 
x 


Figura 6.4: Aproximação Normal para o Modelo Binomial. 


Para melhorar a aproximação, alguns autores introduzem a correção de 
continuidade no cálculo com a Normal. Esse mecanismo consiste em alterar de 
0,5 unidade o valor com que se deseja calcular a probabilidade. A alteração para 
mais ou para menos depende, respectivamente, da probabilidade desejada excluir 
ou incluir a igualdade ao valor desejado. Por exemplo, teríamos, 


4 üs 
P(X > 50) = P(Y > 49,5) = P(Z > E) = 0,9474; 


50,5 — 60 
P(X > 50) = P(Y > 50,5) = P(Z > EE = 0,9292.. 


Note que, com relação a Y e Z, é indiferente se a desigualdade inclui ou não o 
sinal de igual. 


Para calcular a igualdade a um valor, digamos X = 50, criamos um 
intervalo artificial, pois com variáveis contínuas essa probabilidade seria zero. 
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Assim, 


HX=50)=P(495<y< 50,5) 


50,5 — 60 


~ P( < 49,5 — 60 
2» Sis) = 0,0182. 
O cálculo exato da probabilidad a 
i ili 
e enalidado da pl i ade fornece o valor 0,0190; mostrando, novament 
Como 


histogramas obti 


P=0.2,n =30 
P=0.2,n=100 

| 

| 

\ 

/ 

P=03,n=1 

0 P=03,n=30 

| | P=0.3,n=50 

P=0.5,n=10 

P=0.5,n=30 


P=0.5,n=100 


dd dh dh 


Cont iii 
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Note como o histograma se aproxima de um modelo simétrico e em forma 
ide sino (semelhante ao modelo Normal) à medida que caminhamos da esquerda 
para a direita (valores crescentes de n). Pode também ser notado que a 
ponverpência será mais rápida em situações em que a distribuição Binomial é 
fproximadamente simétrica, o que ocorre para valores de p próximos a 1/2. 

Uma propriedade muito importante do modelo Normal, cuja 
demonstração será omitida, é aquela que garante que qualquer combinação linear 
de variáveis Normais independentes, também, terá distribuição Normal. Em 
outras palavras, se X1, X2, ... , Xn formam uma sequência de variáveis aleatórias 
Nu, o?) independentes e a1,42,...,Gn, São constantes quaisquer, então 


n 
W = `a; X; terá distribuição Normal. Seus parâmetros são determinados a partir 
i=1 
das propriedades do valor esperado e da variância, ou seja, 


ty = ES ak j= SD E(aX; )= Sai E(X;) = Vaini; 
1=1 i=l 1=1 1=1 


a = Var(S aK | S var(a:X; Je DELEA = Soato? 
i=1 i=1 i=1 i=1 


Este resultado amplia, consideravelmente, o uso da Normal em várias situações, 
conforme pode ser notado nos exemplos a seguir. 


Exemplo 6.10: Um serviço de fiscalização é criado para averiguar se garrafas de 
um certo refrigerante contém, de fato, o volume especificado pelo fabricante. Para 
tanto, 10 garrafas do produto são compradas no varejo, em várias regiões da 
cidade. Cada uma dessas garrafas é esvaziada e o volume de seu conteúdo, que 
denotaremos por V, é aferido. Uma vez obtidos os 10 valores, a média aritmética 
M é calculada e, se M < 290 mililitros (ml), a companhia é multada. Estudos na 
linha de produção do fabricante mostraram que variações sempre ocorrem, mesmo 
se as especificações forem seguidas. Por essa razão, considera-se O volume do 
conteúdo das garrafas como seguindo um modelo Normal, com média js = 300 ml 
e desvio-padrão o = 25 ml. Gostaríamos de calcular qual é a probabilidade de 
que o fabricante seja multado injustamente? 


A multa será injusta se, apesar de dentro das especificações, o valor de M 
for abaixo de 290 ml. Observe que isto pode ocorrer devido à natureza aleatória 
do enchimento das garrafas. 
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Conforme mencionado, a variável L, sendo uma combinação linear de 


t=1,...,10. A média aritmética M é dada por prmais independentes, segue distribuição Normal com parâmetros dados por: 
H,=2x3+5x6+3x 4= 48; 


o? = 2? x 4+5? x 9+3? x 16 = 385. 


que correspon a Te 

ai panida GE combinação linear com ai = 1/10, para todo ; 

E oe i pe encia entre as variáveis aleatórias V. des o 1. Log 
(Hu, o?r), com i1 = L,...,10, temo 


intão L ~ N (48, 385) e, portanto, 


50 — 48 


P(L > 50) = P(Z > 585 ) = P(Z > 0,10) = 0,4602; 


10 10 
as 1 
um = } aiu = X300 = 300; : 
i=1 & 10 Indicando uma alta probabilidade de lucros superiores a 50 mil. 


o? > 2.2 PIN 252 
io. Elm 5 = o 


i=1 


Exercícios da Seção 6.2: 


|, Sendo X ~ U[0,4], calcule 

a. P(X > 2). 

b. P(X 2 2). 

cP(I<X<2). 

dPI<X<2]X<3). 

eP(X<3i<X< 2). 

2. Admite-se que uma pane pode ocorrer em qualquer ponto de uma rede elétrica 

de 10 quilômetros. 

a. Qual é a probabilidade da pane ocorrer nos primeiros 500 metros? E de 
ocorrer nos 3 quilômetros centrais da rede? Ê a 

b. O custo de reparo da rede depende da distância do centro de serviço að 
da pane. Considere que o centro de serviço está na origem da rede e que o 
custo é de R$ 200 para distâncias até 3 quilômetros, de R$ 400 entre 3 e 8e 
de R$ 1.000 para as distâncias acima de 8 quilômetros. Qual é o custo 


Logo, 


P(multa) = P(M < 290) = p(t — tum > 290 — 300 
| ou/vn ` 25/4/10 


= P(Z < —1,26) = 0,1038. 


Portanto, a probabilidade de 


Ba que a empresa sej idey | 
aproximadamente, 10 % presa seja multada, indevidamente, será de 
. , 


O 


modelo probabilístico para avali Jocal 


O seguinte modelo representa o c 
id médio do conserto? 

3, O tempo necessário para um medicamento contra dor fazer efeito foi modelado 
de acordo com a densidade Uniforme no intervalo de 5 a 15 (em minutos), 
tendo por base experimentos conduzidos em animais. Um paciente, que esteja 
sofrendo dor, recebe o remédio e, supondo válido o modelo mencionado 
acima, pergunta-se a probabilidade da dor : 

a. Cessar em até 10 minutos? 

b. Demorar pelo menos 12 minutos? 

c. Durar mais de 7 minutos, sabendo-se que durou menos de 10? 


L=2La+5L +3 Lc, 


, I 2 z 
S 
[À j4 I | 3 . ç 
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A 


a 


* Suponha que o valor esperado de uma variável aleatória com distribuiç 


- Sendo X ~ Exp(1), determine: 


- Suponha que o tempo de vida T de um vírus exposto ao meio ambiente segu 


- Seja X~ N(4,1). Determine: 


. Para X~ N(90,100), obtenha: 


«Para X~ N(—5, 10), calcule: 


6.3 Exercícios 


6.3 Exercícios 


|. Uma variável contínua tem densidade dada por: 


tz, 1£7€3 
sor 


Uniforme contínua é 1 e a variância é igual a 1/12. Encontre a probabilidade 
variável assumir valores menores que 3/4. 


a P(0< X <2). 0, caso contrário. 

b. P(X < 9). f ai 
Cc. x l< ma 4). a. Faça um gráfico da função acima e verifique que ela satisfaz as condições 
d. P(X > 3). para ser densidade. 


i P(X =9). 
leiga . Determine P(X > 2), P(X > 2)e 

ep i e Calata P(0 e X < 3/2), P(X > 3/2) e P(X > 3/2). 
d. Obtenha P(3/2 < X < 5/2|X < 2). 


uma distribuição Exponencial com parâmetro A = 1/20s. Calcule de da demais dio metido gp om variável aleatória contínua X é dada 


probabilidade condicional P(T > 15 |T > 10). 
pelo gráfico a seguir: 
a. P(X<4).. 
b.P(4<X<5). 
e P(2<X <5). 
d. P(5< X <7). 
e P(X <1). 
LP(O<X<9. 


J% 


a. P(X < 115). 

b. P(X > 80). 

c. P(X < 75). 

d. P(85 < X < 110). 

e. P(|X — 90| < 10). 

f. O valor de a tal que P(90-a<X< 90+a)=%, y= 0,95. 


-0,5 


Determine: 
a. P(—1/4 < X < 1/4). 
b. P(0 < X < 3/4). 
c P(—-3/4< X <0). 
d. P(X > 0, X > 3/4). 
e.P(X>0| ri < im 
. P(X < 3/4| X > : 
e tia E inda b tal que P(X > b) = 1/4. 


a. P(—5 < X < —2). 
b. P(X < 0). 

c. P(X > —6). 
LP(-TEXZ H. 
e. P(X +5| > 9). 


dá dois asian 
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fix) 
fa) = 6T + k, 0<z<3; 


caso contrário. 
a. Qual é o valor de $? 
b. Quanto vale b, tal que P(X > b) = 5/9? 


4.0 tempo adequado de troca de u 


1/3 


sujeitos a uso contínuo é s m amortecedor de certa marca em automóve | 
contí E evero pode ser considerad i 
inua, medida em anos Suponha que a fi dn A = | | 
seguinte expressão: que a função densidade é dada j 
1/3 1/2 3/4 7/3 
1 P" = 
gts O<zr<2 6. O acréscimo anual na área atingida por uma certa praga, numa região produtora 
= 4 1 de frutas. pôde ser modelado por uma variável aleatória contínua, medida em 
5 E 2<x< a 
dá 6; hectares (10 mil m?), com densidade: 
0, caso contrário. ão 0<z<l; 
a. Verifique q f il 
j ue a função acima é f 
b. Qual é a probabilidade de 47 de fato, uma densidade, f()=4\ 1-5, Isz<3; 
. m automóvel, sujeito à Fai 
acıma, necessitar de troca de amor : SJEO às condições descritas 0, caso contrário. 


le 3 años? tecedores antes de 1 ano de uso? E entre 
a. Construa o gráfico dessa densidade. 


b. Qual seria a probabilidade da praga atingir entre 2 e 3 hectares esse ano? 


a probabilidade de i 
que seja necessári » qual 7 m 
anos de uso? d cessário fazer a troca antes de q c. Que área será atingida com 50% de certeza? 
completar 4 - a a 
d. Qual é o tempo médio adequad d. Determine o acréscimo médio anual na área atingida pela praga. 
Eu O para a tr 
auto oca do 5 . : 
móveis? amortecedor desses 7. Suponha que o peso de recém-nascidos (em kg) pode ser considerado uma 
5. O gráfico, a seguir, representa a d variável aleatória com a seguinte densidade: 
X ensidade de uma variáve] l 
s aleatória contínua Bird  0<r<2 
e VE dA 
b. E rique que f(x) representa uma densidade 3 9 
+ Zscreva a expressão da função. l f) = § -art 2<7 <6; 
c. Calcule P(X < 5/12) i 0 er 
s , caso contrário. 


d. Determine um número c tal que P(X<c)=1 
= 1/2. Qual a probabilidade de, escolhendo ao acaso uma criança, ela ter peso: 


a. Inferior a 3 kg? 
b. Entre 1 e 4 kg? 
c. Pelo menos 3 kg? 


ÅT 
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8. Um parafi áti | 
eia Uso produzido Por um torno automático poderá ter uma pequen 5 pá 
ção no seu comprimento, dada em milímetros. Afirma- i 
comportamento aleatóri d ; o hii e i 
Orio pode ser modelado pela seguinte função: é = 
0, caso contrário. 


Ha) = 16 > 16º n 
0 caso contrári a. Determine a média e a mediana do tempo de recuperação. 
ý rário. a. L 
lcule o desvio padrão. 
a. Determine o valor de k tal b. Ca 
iiij osu j i i ser trocada com 
E | De E ti di I2. A trava de segurança de um aparelho industrial deve 


fregiiência, de modo a evitar a quebra devido ao fim de sua vida útil. me mi- 
» i Ave 
anteriores admitem que essa vida útil pode ser representada por uma variáve 


qual a probabilidade de obtermos um comprimento maior que 1 milímetro? 
c. Calcule o comprimento médio desses parafusos. : 
seguinte: 


9. S m . . | 
uponha que uma variável aletória contínua X tem densidade dada pela mi -2), 0<z<l; 


seguinte função: ns j 
5 o 0, caso contrário. 
6? 0O<zr<1 | | | 
7 5 a. Calcule a probabilidade da vida útil ser superior a 6 meses. 
pio esa b. Determine a vida útil média. 


13. Suponha que o comprimento de fósseis encontrados em uma certa sai 
dado em centímetros, pode ser representado por uma variável aleatória X cor 


, ii função densidade de probabilidade dada por: 


a. Determine a mediana e a média. 4 0 < z < 12; 
b. Calcule a variância. Pi < 20 
Z 1 = 4) 1l2<gx ; 
10. A função apresentada i i i | ji 
1 » à Seguir, corresponde à densi iá ri 
aleatória coa P dade de uma variável 0, caso contrário. 


a. Calcule a média e a variância de X. 


1.3 
4T, 0 < T < 2 é 
Ha) = i i b. Se um museu decide comprar os fósseis encontrados pagando R$ ninpa 
0, caso contrário, ` para os de comprimento menor que 10 centímetros e R$200,00 para os 
Determine: demais, quanto paga em média por exemplar? 
a Pia > ik 5 ‘14. O tempo de corrosão, em anos, de uma certa peça metálica é uma variável 
e P(1/2< X< 1| X < 3/2). com densidade: Em essi 
11. Suponha que o tempo, em meses, Para a recuperação de Pacientes submetidos a beras 
a um certo t i = f 
rto tipo de cirurgia do aparelho digestivo pode ser modelado por uma fa) = -ax+3a, 2<20<3; 


0 caso contrário. 
5 


CO 


UU 
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e 
a. Calcule a const 
ante qa, 
b. Uma peça é Considerada como tendo boa resis tência à 19. Em uma empresa, o equipamento de ar condicionado trabalha continuamente, 
Cc a, . 2 . ig ' 
que 1,5 anos. Em um lote de 3 peças, qual go ig O se dura mais exceto quando ocorre alguma falha que causará uma interrupção e necessidade 
a i ~ ar 
exatamente 1 delas com boa Tesistência? i Probabilidade de termos de manutenção. Vamos supor que pode haver, no máximo, uma falha por 


semana (7 dias), que ocorre com probabilidade 0,05. Em havendo falha, ela 

pode ocorrer em qualquer hora do dia (24 horas). 

que a densidade de probabili dade a. Se o expediente na empresa vai de 8 às 18 horas de segunda a sexta, qual a 
probabilidade de uma falha durante o expediente? 

b. As falhas, durante o expediente, acarretam custos de R$ 300,00 enquanto 
que nos demais horários o custo é de R$ 200,00. Admita que se não houver 
falha, o custo é zero. Em 4 semanas, qual é o custo médio devido a falhas 
com o ar condicionado? 


0, Caso contrário 
a. Determine a média e ą variância do consum hg AE o Exp(1/10), calcule: 
b. Sendo R$0,7 o preço d li e a. P(X < 5). 
em uma vi meio dra de combustível, qual será a média d d b. P(4< X < 6) 
a viagem de 100 quilômetros com esse automóvel a despesa | k : 


CP(ZA X « 5). 
d. P(X < TIX > 2). 
e. O valor esperado de Y, sendo Y = 3X +2. 


16. Sendo X~ Ulo, 4), determine: 
a P()O< x < 2). 


b. P(X <9 dir 
e P(I<X<4 f. A variância de Y. 
d. P(X >83 21. Para uma Exponencial de parâmetro 1, calcule a probabilidade de sortearmos 


um valor que se distancie no máximo 0,5 da média. Obtenha a expressão da 
função de distribuição dessa variável, Qual é o valor do terceiro quartil? 


ma falha na soldagem pod 22. O tempo, em minutos, de utilização de um caixa eletrônico por clientes de um 
será em qualquer a z ps ep com probabilidade 0,1 e, se ocorrer certo banco, foi modelado por uma variável T com densidade Exponencial (3), 
especificação de comprimento Ka x e igual Probabilidade, Se a viga tem Determine: 
gie gual a 6 metros, determine a probabilidade de a. P(T < 1). 


b. P(T >1|T < 2). 


a. Sabendo-se que 
c. Um número a tal que P(T < a) = 04. 


das extremidade 
b. Ocorrer falha de 


solda nos dois metros centrais davi 


s | | ga. 
. Dois amigos Planejam um encontro 


chuva, vento e umidade da região. Tendo em vista esse comportamento, as 
autoridades sanitárias recomendam que o contato direto ou indireto com as 
frutas pulverizadas seja evitado por algum tempo após a aplicação. Calcule a 
probabilidade de uma fruta desse pomar, escolhida ao acaso, não estar mais 
contaminada após 1 ano da pulverização. Qual é a nossa "segurança" se 
aguardarmos 2 anos para consumir essas frutas? 
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24. U õ i 
m banco faz operações via Internet e, após um estůdo sobre o serviço 


E k sendo 1 ou 2, dependendo do cliente ser pessoa física ou jurídica 
entre os clientes que se utilizam da Internet, a porcentagem dos ão 
classificados como pessoa física é estimada em 20%. it 
> Pa pessoa física, qual a probabilidade de mais de 2 minutos de conexão? 
« Sendo pessoa jurídi ili i 6 
iara Jurídica, qual a probabilidade de ficar conectado menos de 6 
P Pig a iene de um cliente ficar mais de 2 minutos conectado 
* de um cliente fica mais de 5 minut ili | 
Edema nutos conectado, qual a probabilidade dele 
25. Seja X~ N(5, 4). Determine: 
a. P(X < 6). 
b. P(7 < X <8). 
e P(2 < X <5). 
d. P(—-1 < X <2). 
e. P(X < —1). 
f. P(—2 < X < —1). 


26. Para X~ N(50, 81), obtenha: 
a. P(X < 75). 
b. P(X > 60). 
c. P(X < 35). 
d. P(85 < X < 100). 
e. P(|X — 40] < 10). 


27. Sendo X~ N(5/4, 1/9), calcule: 
a. P(X < 7/5). 
b. P(0 < X < 6/5). 
c. P(X < 3/5). 
d. P(|X —4/3| < 1/2). 
e. P(X — 1| > 1/4). 
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28. Na distribuição X~ N(u,o?), encontre: 
a. P(X > p +20). 
b. P(X — u| < ø). 
c. O número a tal que P(u — ac < X < u + ao) = 0,99. 
d. O número a tal que P(X > a) = 0,90. 


29. Uma clínica de emagrecimento recebe pacientes adultos com peso seguindo 
uma distribuição Normal de média 130 kg e desvio padrão 20 kg. Para efeito 
de determinar o tratamento mais adequado, os 25% pacientes de menor peso 
são classificados de "magros", enquanto os 25% de maior peso de "obesos", 
Determine os valores que delimitam cada uma dessas classificações. 


30. Um teste de aptidão feito por pilotos de aeronaves em treinamento inicial 
requer que uma série de operações seja realizada em uma rápida sucessão, 
Suponha que o tempo necessário para completar o teste seja distribuído de 
acordo com uma Normal de média 90 minutos e desvio padrão 20 minutos. 

a. Para passar no teste, o candidato deve completá-lo em menos de 80 minutos, 
Se 65 candidatos tomam o teste, quantos são esperados passar? 

b. Se os 5% melhores candidatos são alocados para aeronaves maiores, quão 
rápido deve ser o candidato para que obtenha essa posição? 


31. Com base em experiências anteriores, a Companhia Telefônica sabe que 10% 
das contas dos seus clientes em uma comunidade são pagas com atraso. Para os 
itens abaixo, compare a solução exata com aquela obtida através de 
aproximação da variável aleatória pela distribuição Normal. 

a. Se 20 contas são enviadas em um dia pela Companhia Telefônica, qual é a 
probabilidade de que menos do que 3 sejam pagas com atraso? 

b. Se 150 contas são enviadas mensalmente para a comunidade, encontre à 
probabilidade de que 17 ou mais sejam pagas com atraso. 


32. A durabilidade de um tipo de pneu da marca Rodabem é descrita por uma 

variável aleatória Normal de média 60.000 km e desvio padrão de 8.300 km. 

a. Se a Rodabem garante os pneus pelos primeiros 48.000 km, qual a proporção 
de pneus que deverão ser trocados pela garantia? 

b. O que aconteceria com a proporção do item (a), se a garantia fosse para os 
primeiros 45.000km? 

c. Qual deveria ser a garantia (em km) de tal forma a assegurar que O fabricante 
trocaria sob garantia no máximo 2% dos pneus? 

d. Se você comprar 4 pneus Rodabem, qual será a probabilidade de que você 
utilizará a garantia (45.000 km) para trocar um ou mais destes pneus? 
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Cos E na 
apítulo 6: Variáveis Aleatórias Contínuas 


33. Estudos meteorológicos indicam que 
períodos de seca numa certa região 
distribuição Normal de média 30 mm e 
a. Qual seria o valor da Precipitação pl 

10% de probabilidade de haver uma 

b. Construa um intervalo central em t 
Possíveis valores de Precipitação plu 

c. Admitindo esse modelo correto pa 
deles esperaríamos uma precipitaçã 


a precipitação pluviométrica mensal e 

a , 
pode ser considerada como seguindo 
variância 16 mm? 


uviométrica de 
precipitação inferio 


viométrica. 


o pluviométrica superi 

34. (Use o computador) Utilizando um tação 
uma amostra de 100 observações 
parâmetros n = 10, 30, 50, 100 e p 
de n e p, construa um histograma. 


construídos, o que pode i 
, ser dito i HARAN 
Normal? a respeito da aproximação para a distribuição 


35. (Use o computador) 


Com : 
Capítulo 1): os dados do arquivo areas.txt (ver Exercício 25, 
, 


, . 


ntre O tamanho da sala para cada bloco? 
histograma l 


k s, que mode Sri ê iri 
Para a variável Sala, em cada bloco? ii cs kat 


Capítulo 1, considere a variáv 
anos de idade. 
a. is 
o o histograma e algumas medidas descritivas 
5 iria que o modelo Normal representaria bem esses dados? 
. (Use o computador) C | 
j om os da ji 
arak dos do arquivo aeusp.ixt (ver Exercício 26 


a. Verifique se a variável Temp 
média 19 e desvio padrão 12. 
b. Para cada região de procedência 


Temposp. Com áfi 
> pare os gráficos. Existe di 
sobre os modelos te Ep 


osp pode ser modelada por uma Normal com 


a ça entre eles? : 
orıcos que poderiam ser adequados? s? Algum palpite 


c. Foi Proposta a Uniforme contínua [1,10] 
Qual é a sua opinião? | 


para modelar a variável Resid. 


odo que exista apenas 
orno da média que contenha 80% dos: 


ra xi 
Os próximos 50. meses, em quantos 


Capítulo 7 


Inferência Estatística - Estimação 


7.1 Introdução 


A Inferência Estatística é um conjunto de técnicas que objetiva estudar a 
população através de evidências fornecidas por uma amostra. E. a amostra que 
contém os elementos que podem ser observados e, a partir daí, quantidades de 
interesse podem ser medidas. 

Para ilustrar as idéias que discutiremos nesse capítulo, considere que é de 
interesse estudar a proporção de alunos, em uma escola do ensino médio, que 
pretendem fazer vestibular. Para tanto, selecionamos uma amostra de alunos e 
perguntamos a eles sobre suas intenções futuras de estudo. Com o intuito de obter 
alguma indicação do valor da proporção na escola como um todo, podemos usar a 
proporção dos que pretendem prosseguir os estudos no grupo selecionado, 
Suponha que a escola tenha 1000 alunos e escolhemos 20 para a amostra. Essa 
escolha pode ser em uma mesma classe ou espalhada entre os alunos das três 
séries ou, ainda, realizada de tal modo a garantir igual presença de meninos e 
meninas no grupo, independentemente da série cursada. Uma forma simples de 
escolher é associar um número a cada um dos 1000 alunos, colocar todos esses 
números numa lista e sortear 20 números. Os alunos correspondentes aos números 
sorteados formariam a amostra. Suponha que você realize o sorteio dessa forma e 
um amigo seu, desconhecendo sua iniciativa, repita o mesmo procedimento. Você 
acha que as amostras sorteadas por você e por seu amigo serão as mesmas? Parece 
intuitivo assumir que não. Queremos enfatizar que, se realizarmos várias vezes a 
amostragem descrita, provavelmente obteremos amostras compostas por alunos 
diferentes. Uma questão que surge agora é: apesar de diferentes, podemos ter 
respostas próximas ou iguais nas diversas amostras? A resposta é afirmativa e 


estará subjacente às idéias que desenvolveremos neste capítulo. 


Resumindo a discussão do parágrafo anterior, podemos dizer que devido à 
natureza aleatória, geralmente envolvida no procedimento amostral, não podemos 
garantir que repetições de amostras produzam sempre resultados idênticos. Assim, 
ao coletarmos uma amostra, não podemos prever antecipadamente seu resultado. 
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Em outras palavras, todas as quantidades associadas à âmostra terão car 
aleatório e, portanto, devem receber tratamento probabilístico. 

Um ponto importante a destacar é que, se a população inteira entrar 
amostra, temos, na prática, toda a informação possível e não há surpresas 
amostragem, ou seja, não há aleatoriedade envolvi Por exemplo, se os 10 
alunos da escola mencionada acima forem entrevistados, teremos o valor exato 
proporção dos que desejam continuar os estudos na universidade. Nesse cag 
toda a população faz parte da amostra e o resultado obtido irá ser sempre 
mesmo, não importando quantas vezes repetimos a coleta da amostra, É claro qu 
estamos supondo que os alunos não trocam de opinião entre as coletas e, portanto, 
como todos os alunos sempre entram na amostra, a proporção obtida se mantém, 

Neste capítulo, formalizaremos alguns conceitos relacionados a um r 


valores de amostras aleatórias, objetivando a obtenção de informações a respeito 

de características de interesse na população. 
Para eliminar ambigiiidades e confusões de notação, vamos representar 

uma amostra de tamanho n, a ser retirada da população, por (Xi, Xo,..., dm 


Exemplo 7.1: Uma empresa fabrica 100 equipamentos eletrônicos por semana ë 
deseja verificar como se comporta a resistência desse tipo de equipamento em 


aparelhos que passarem no teste, Como esses testes são demorados e demandam 
custos expressivos, apenas 5 desses aparelhos serão testados. Que cuidados 
precisamos ter na escolha e na interpretação dos resultados? 

Os 5 aparelhos escolhidos precisam ser "representativos" da produção, ou 
seja, a amostra precisa representar bem a população de aparelhos produzidos. 
Assim, se questões referentes a operadores, máquinas utilizadas ou, até mesmo, o 
dia em que foram produzidos tiverem efeito na qualidade do aparelho, elas 


produção, baseando-se apenas nos resultados de uma semana, parece ser 
precipitado. O mais indicado seria coletar amostras em várias semanas. 

Uma vez escolhido o esquema de amostragem, a cada elemento da 
amostra podem ser atribuídos valores O ou 1 dependendo, respectivamente, do 
aparelho ser classificado como tendo má ou boa resistência às alterações de 


vezes a T 
1, 3, 2 e 3. A que conclusão chegamos? 


dÍ Introdução 


, 1, 1) em 


a ( , , , ) ) p p ( 
nä co u a outra (1, 1,0, 1, 0). || 
umi ( leta e num 
sem, ( ZA . 


. 5 l 
ntes 


ri 


0,5 [02 


d , q D ds “ D 
S ncias oda ÀS f ces 


(m) 


Į 8 3 ? 


melhor seria não jogar com esse dado! | ido dota 
7.3: No primeiro dia, após mudar para um novo bairro, a ônibus 
Exemplo ai p no ponto de ônibus, quanto tempo se espera para O 
perguntar às pao Reparo forneceram os seguintes números (em ne - 
ER EE EPATETRE! 20, 15, 20, 12, 8, 10 e 10. Uma demora de 10 minuto! 
ii ne , d : i ` 
ia ei essoas deram suas opiniões baseadas em ayare 
ni e o Er diferentes entre si. É possível, também, pa pi pre 
pita E tentas que outras na questão da demora, além do q "ont: 
roi ii mesmo horário ao ponto. Algumas, talvez, levem em a n 
ip ere últimas semanas para dar a opinião, outras apenas ns a 
o abmpatamens Has m sabe as pessoas pessimistas peguem o dia de maies 
ce psp ii de menor. Dessa maneira, a subjetividade da RR e 
aa edk e imprecisão da pergunta. Das informações Fa 
Fruto da T P moda 10 e mediana igual a 12. Assim, num p 
ço ser razoável acreditar em espera pouco acima de 10 minutos. 
momento, 


Exercícios da Seção 7.1: , FEC: 
i a cada um $ 
i i i seus amigos. Escrev : 
s idades de cinco dos ; ge mi 
j ppn ueno pedaço de papel, de igual tamanho, e coloque Gde ape te 
sa dis Antes de cada retirada, chacoalhe vigorosamente o envelop 
envelope. 


os olhos. 
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a. Qual é a intenção de toda a "engenharia" descrita acima? 

b. Repita três vezes o seguinte procedimento: retire de uma vez três papéis do 
envelope e anote seus números. Comente sobre as três trincas de números 
encontradas. 

c. Repita três vezes o seguinte procedimento: retire um dos papéis do 
envelope, anote o número e devolva-o ao envelope. Faça mais duas 
retiradas nos mesmos moldes. Comente sobre as três trincas encontradas. 

d. Que diferenças existem nos procedimentos descritos em (b) e (c)? 


2. Deseja-se sortear 100 crianças entre 4 e 10 anos, num certo bairro, para uma 
pesquisa sobre saúde bucal. Foram propostas três alternativas para a coleta: 

E Um sorteio aleatório, realizado entre as crianças std el posto 
de saúde do bairro. i 
II: Um sorteio aleatório de casas do bairro e, em seguida, uma escolha 
aleatória de uma criança de cada casa sorteada, se houver. 
II: Escolhe-se, ao acaso, um dia de semana em uma das escolas do 
bairro. Nessa ocasião, 100 crianças são sorteadas dentre as várias 
classes, com alunos na faixa etária de interesse. 


Comente as diferenças e dificuldades de cada alternativa. 


7.2 Parâmetros, Estimadores e Estimativas 


Para formalizar as idéias que serão apresentadas neste capítulo, 
precisamos definir alguns conceitos. 


Definição 7.1: Parâmetro 


As quantidades da população, em geral desconhecidas, sobre as quais 
temos interesse, são denominadas parâmetros e, usualmente, representadas por 
letras gregas tais como O,ue o, entre outras. 0O 


Definição 7.2: Estimador e estimativa 


À combinação dos elementos da amostra, construída com a finalidade de 
representar, ou estimar, um parâmetro de interesse na população, denominamos 
estimador. Em geral, denotamos os estimadores por símbolos com o acento 
circunflexo: ĝ, à, 5, etc. Aos valores numéricos assumidos pelos estimadores 
denominamos estimativas pontuais ou simplesmente estimativas. 0 


A notação utilizada para a média de uma população é u, acrescida de um 
subscrito, se houver possibilidade de confusão sobre a que população ou variável 


A 


c ão e mé 
média de X referente a uma certa populaçã 
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‘sti es e Estimativas 
2.2 Parâmetros, Estimadores e Esti 


são usados para indicar, respectivamente, 
E dia da população A api 
| considerar o para indicar o desvio padrão E 
tários anteriores sobre a utilização e 
já não têm uma uniformidade de 


s utilizar aquela que nos pareça mais 


os referimos. Por exemplo, px € H 


uma certa variável. Também é ne = 
população, aplicando-se os ag tao 
uubscritos. Outros parâmetros de — 
notação entre os diversos autores e ten 


intuitiva. f : 9. é uma função das variáveis 
s que um estimador, digamos v, Xn). Logo, um 
oiana N 8, D = f(Xi, Xo, s Xn). Logo, 


: itui ostra, isto é r 
aleatórias constituintes da ME ; atória. A correspondente distribuição de 


ntações probabilísticas utilizadas na 
da população. 


ém é ável ale 
estimador também é uma nad E 
probabilidade formará a base a ai 
trapolação da informação da amostra p 
extre 


4XC nplo To E idade 


á lação 
er lhidos ao acaso dentre a populaç 


j esco 
amostra tenha somente 10 jovens, 


i : i 15 e 18 
rali lação é composta por todos os jovens com idade entre 
popu 


i E édi ses 
i a região sudeste. O parâmetro de interesse é à Ga pes yon 
anos, nascidos n da por ju. A amostra (X1, X2, .3X10) será obtida e, pie 
ara sap fi ii a respeito de ju. O que precisamos resolver é pd 
dim dewe pp > utilizaremos para essa tarefa, isto é, qual será o 
dos valores 


eguir algumas opções: , 
Apresentamos a segu (mínimo + máximo) . 

= (Mg ep 

a = fi(X1 X10) = 2 

a = (Xi, o X10) = X15; 

Hg fal l X+ + Xo. 
ALTE TA 

fis = fa(Xi, < X10) = 10 


í listar outros estimadores, mas os três igana manag 
hapag trar nossa discussão. Inicialmente, vamos de e 
pirar am deles. O estimador fi, é a média aritmética e ai 
depim a a a o da amosià e fy é, simplesmente, o primeiro ela, a 
e na fis é a média dos valores da amostra, ou j p E 
nr der a seguir, os valores observados na amostra e as 
do, 1 obtidas com os estimadores definidos acima. 
respe 


174: 181: 1,68; 1,60€ 1,77. 
Amostra (em metros): 1,65; 1,57; 1,72; 1,66; 1,71; 1,74; 181,1, 
m 
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Estimativas: 


n U5T+LBI) _ 


Hion 2 = 1,69 5 
[TEN e 1,65 ; 
m = bO+LST++LTT 16,91 
Jobs = L — 1 69 
10 10 2 . 


Exemplo 7.5: P 
-9: Para detectar o apoio popul j 
e 5: l popular a um projeto govername 
pia agrária, foram entrevistadas 400 pessoas espalhadas pi ca ais q 
o contém as 400 respostas que consistem de sim (para nai 
o yS o projeto) e não (para os que discordam) a 
ar . . . . " 
ai e pp iara, inicialmente caracterizamos a população de 
ela formada pelos habitantes ad í: 
edad l ntes adultos do país. A informaçã 
proporção das pessoas que conc ni 
a ) ordam com o referid j i 
o parâmetro de interesse é p: ã re 
P: proporção dos que concord. j } 
gi raam com o projeto. 
EE E Pio Kari gi como o vetor de variáveis aleatórias 
2, +» ; ma delas seguindo um model i 
pin i elo Bernoulli, ou sej 
ndo valor 1 para sucesso (resposta sim) e 0 para fracasso (resposta náo). N 


~ número j 
j= dos entrevistados que aprovam o projeto 
400 


ie : as 
que, tendo em vista as variáveis de Bernoulli, pode ser escrito como: 


P= 
400 
Como v i i 
eremos adiante, esse estimador além de intuitivo tem boas propriedades. O 


Su onha c 
i ' p ; À err aa a uma amostra de tamanho n é retirada da 
popu ação e represen ada pelo conjunto de variáveis aleatórias (Xı Xa X ) 
, | mp 


Capítulo 7: Inferência Estatística - Estimaç 


211 


7.2 Parâmetros, Estimadores e Estimativas 


Denote os parâmetros média, variância e proporção de certa característica na = 
população por p, o2e p, respectivamente. Os estimadores "naturais" para estas 
quantidades são as correspondentes média, variância e proporção calculadas na 
amostra. Representando-os, respectivamente, por X à 7? e D, temos 


AU 
L M+HX + +X “Xi. 
gya NA O > DE 
n E 
n 
a2 1 2. 
F= -Y (X;— X) $ 
nó 
i=1 
— número de itens com a característica na amostra 
ai ' 
DAA NT 3 n 
To PARIDO 
h k A 
Note que cada um dos estimadores apresentados depende dos valores pertencentes 
à amostra aleatória (X1,..., Xn). Como veremos no decorrer desta seção, os 


estimadores X e P, além de serem intuitivos, têm as boas propriedades que serão 

a a . ^2 a x 
definidas adiante. No entanto, com respeito à 9”, uma alteração na sua expressão 
será necessária para que satisfaça uma dessas importantes propriedades. 


Exemplo 7.6: Para estudar o nível de colesterol em uma população de esportistas, 
coletamos uma amostra de 10 jovens atletas, obtendo os seguintes valores: 
180, 196, 185, 165, 190, 195, 180, 176, 165 e 195. 

Vamos definir nosso interesse como sendo o nível médio de colesterol e, 
assumindo que não temos acesso à toda a população, estimaríamos o parâmetro pi 
(valor desconhecido da população) pela média amostral calculada com os valores 


dados, isto é, 


= 180 + 196 + 185 + +- + 176 + 165 + 195 
Tobs = = RT o = 182,7. 


Portanto, a amostra, através do estimador X, fornece para o parâmetro ju a 
estimativa 182,7. O limite de colesterol para pessoas sadias é 200, isto é, acima 
“desse valor o indivíduo aumenta o seu risco de ter uma complicação cardíaca. À 
amostra forneceu um valor relativamente baixo, indicando que as pessoas que 
praticam esportes, aparentemente, estão mais protegidas de complicações do 
coração. 
Tendo em vista que a população em estudo é constituída de jovens atletas, 
um nível de colesterol acima de 190 poderia ser considerado preocupante e 
indicativo para um acompanhamento médico mais fregiente. Dessa forma, 
suponha que classifiquemos como tendo taxa alta os atletas com valores acima de 


Capítulo 7: Inferê va E foi ` 
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190 e j i í 
taxa baixa, os demais. Sendo X; o nível de colesterol do i-ésimo atle 


escolhid ini i 
colhido, definimos Sin = Z ((852 — 4,84)? +- + (5,10 — 4,84)?] = 0,67; 
1, se a e 
ae t A a2 máximo — mínimo, ? 6,12 — 3,52\ 2 2,601? 
, seX; < 190. 2 = ( 5 ) = ( - ) _ Es -169. 


Esses números, apesar de bem distintos, dão idéia da dispersão de valores que 
podem ser encontrados no tamanho dos tumores. Veremos mais adiante que um 
estimador "melhor" e, portanto, uma estimativa melhor pode ser obtida. m 


S q 
, 1 


Para os dados apr 
esentados, podemos construi 
struir a tabela: 
Como vimos nos exemplos acima, mais de uma função da amostra pode 


ser proposta para estimar O parâmetro de interesse. Para facilitar a escolha entre 
tais estimadores, torna-se importante verificar se possuem algumas das 
propriedades que serão definidas a seguir. 


Definição 7.3: Vício 

Um estimador 9 é não viciado ou não viesado para um parâmetro 0 se 
(0) = 0. Em outras palavras, um estimador é não viciado se o seu valor w 
esperado coincide com O parâmetro de interesse. m 


A proporção p de atletas co 
m taxa de colesterol alta será esti 
stimada pela ã 
de taxas altas encontradas na amostra, D. A estimativa obtida é: dci 


di AEN torki titel 


Pobs = n 
003 10 10 0,3. 
P 1 7, DDR DNS . 4^ . 
ortanto, baseado na amostra disponível, assumiremos que 30% de todos os Definição 7.4: Consistência 


atletas têm taxa relativamente alta de colesterol, indicando a necessidade de 


acompanhamento médico. = Um estimador O é consistente, se, à medida que o tamanho da amostra 


aumenta, seu valor esperado converge para O parâmetro de interesse e sua 
variância converge para zero. Ou seja, O é consistente se as duas propriedades, 


CEA 


Exe : Foi ' 
mplo 7.7: Foi coletada uma amostra de pacientes, sofrendo de um certo tipo 
seguintes são satisfeitas: k RP Qu 

> yh D 


digg pam se ter a idéia da variabilidade da área atingida pela doença 

pacientes sorteados ao acaso mediu-se, através de j 
' aparelhos, 

dos tumores observados. Os dados foram os seguintes (em em) 3,52; 4 poe 

4,32; 6,12; 5,88; 4,08; 5,91; 4,50; 4,86; 5,48 e 5,10. E a 

Tendo em vista que se deseja estudar a variabilidade, vamos considerar 


a 


n—00 
ii) lim Varð) =0. 
| 0 


à Note que, na definição de consistência, estamos implicitamente usando o 
GH = SE peere Fr fato que o estimador depende de n, o tamanho da amostra . Na definição do vício, 

a) o resultado deve valer para qualquer que seja n, isto é, E(0) = 0, para todo n. Na 
definição da consistência, O estimador necessita ser não viciado apenas para 


až máximo — míni 
(E) : valores grandes de n. 


fa = 
2 
2 
A primei 5 iânci j 
primeira escolha é a variância do conjunto de dados que foi observado 
2 


enquant i É i 
z quanto que o segundo estimador proposto é a semi-amplitude de valores obtidos 
a amostra. Vamos calcular suas estimativas: 


Exemplo 7.8: Considere que, numa certa população, uma variável aleatória X 
assuma os valores 0, 10, 20 e 30 com porcentagens 20%, 30%, 30% e 20%, 


respectivamente. Através da função de probabilidade, podemos calcular a média e 


a variância da população, nesse caso H = 15e o? = 105. Entretanto, para efeito 
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Ca 


D 
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vi 
(a5 


a 


0 


aima, será influenciado pelo tamanho da amostra. Conforme veremos adiante, 


seu [a 
. m, 


X | 0 10 20 30 X | 0 10 20.30 


rmações. 
» Com reposição. Vam 
Exemplo 7.9: Suponha que é sabido que uma certa característica X, na 
população, tem média u e variância 02. Uma amostra aleatória de tamanho n, 
fepresentada por (X1, X2, ..., Xn) é obtida para estimar o parâmetro p. 

Considere o estimador fı =X . Assumimos que o vetor amostral 
., Xn) é constituído de variáveis aleatórias independentes e todas com a 


pi | 0,2 s 
A 0,3 0,3 0,2 Pi 10,2 0,3 0,3 0,2 ` (Xi, X2- 
S possiveis amostras são as seguintes: (0, 0), (0, 10) (o 20) , i mesma distribuição da variável X, isto é, X1, X2, ... , Xn seguem algum modelo 
; » > 20), ... e (30, 30). S (que não foi especificado) com média u e variância o?. Com o auxílio das 


» mas não são equi vei 
prováveis! Alguma â : 
gumas amostras têm mai propriedades da esperança e da variância temos 


probabilidade 0,06 enquanto que (10, 20) tem 0,09 


Para estimar o valor d sdi 
. a méd z : 
estimadores: ja 4 na população, considere os seguinte E(fiy) = E(X) = ide dm = EA =- H 
De fil, e; Bo. A di | 
ie flXi, Xa) “Fo E E | Para a variância temos, 
Como se comportam ess i 
es est ici 
imadores? Broto tAn é D no o 


A fun A iJ; ya A 
ção de probabilidade de X; já foi apresentada e podemos calcular Varte Van 


ns ~ . s em a mesma distribui ao de X 
, . 


Para a variá sri 
iável aleatória X, não é difíci 
= “1. n ifi 
probabilidade d- » não é difícil verificar que sua função de 


Portanto, mostramos que a média amostral é um estimador não viciado para a 


média populacional |; e, como Var (mı) = 02/n tende a O conforme n cresce, 


concluímos também que X é um estimador consistente para p. 

Considere agora que especificamos o modelo de X como sendo Normal, 
isto é, temos X ~ My, o?). Os resultados apresentados acima para X 
permanecem válidos, pois foram desenvolvidos sem nenhuma particularidade de | 
modelo. Suponha que um outro estimador é proposto: fi, = mediana(X1, ..., Xn). 
A justificativa para o uso de f, deve-se ao fato de que o modelo Normal é 
simétrico e a mediana, assim como a média, é uma medida de tendência central. 

Os cálculos referentes à fi, são um pouco mais elaborados e não serão 
desenvolvidos aqui. Entretanto, pode-se demonstrar que E(f,)=u € 
Var(fiy) = (m/2)(02/n), de tal forma que esse estimador é também não viciado e 


o 


o (5 10 15 2 
25 30 
0,04 0,12 0,21 0,26 0,21 0,12 004 


Calculando o valor esperado de X, obtemos 
E(X) = 0x 0,04+5 x 0,12 + --- +30 x 0,04 = 15 


l Concluímos que os esti M M 
viciados para arli ai ear faenar pi ca 
pi o pc : - Seriam também consistentes? 

Diga Ea pica à X4, tem variância igual à variância de X 
RUE te g m o tamanho da amostra. Em outras palavras a 
não será um estimador Pi mi ção Ei Tg a Logo h 
pi aiig no a | Ê pem H. Quanto à fi,, por ser a média seit 

valores amostrados pelo tamanho da amostra e, Pra 


consistente para ju. 


Exemplo 7.10: Supondo uma amostra (X1,..-, Xn) obtida de uma população 
com média p e variância o°, um estimador "natural" da variância foi apresentado 
anteriormente e motivado pelo cálculo da variância de um conjunto de dados. 


Esse estimador foi denotado por (o e é viciado para o?, uma vez que: 
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E(6)) = EIS; 28 
i=l 
= SDE =u+u-X)?) 
é BID, - u)?) — =B(n(X = n)?) 


1 n o 
= 2 A - 4} - E(X — u}? 
i=1 


1 
n n 
n—1 


Como é imediato verificar, o quociente (n — 1)/n nunca será 1, exceto no limite 


quando n tende a infinito. Podemos eliminar o vício multiplicando F? porne 


dividindo por (n — 1). Assim, definimos um novo estimador 


1 E 
t=1 


que é não viciado para o?, Para seu cálculo, podemos usar a expressão alternativa 


io (DM = 03?) 


Esse estimador recebe o nome de variância amostral e será sempre denotado por 
S? para distinguir de outros estimadores denotados genericamente por 6º. 0 


Note que a variância ou o desvio padrão de um estimador fornece uma 
idéia da sua precisão. Por isso, é comum denominar o desvio padrão de um 
estimador de erro padrão. Quando dois estimadores forem consistentes e não 
viciados para um mesmo parâmetro, o erro padrão é considerado para decidir qual 
é o mais preciso. Neste contexto, o conceito de eficiência é apresentado a seguir. 


Definição 7.5: Eficiência 
Dados dois estimadores ie 02, não viciados para um parâmetro 6, 
dizemos que 0; é mais eficiente do que 0, se Var( 01) < Var( 0,). (m) 


72 Parâmetros, Estimadores é Estimativas 


pe É cida o na 
Exemplo 7.11: No Exemplo 7.9, no caso de distribuição Normal, pa e 
os estimadores i =X e m= mediana(X1,..., Xn) são não viciados e s 


variâncias foram calculadas. Então, 


Var(fiy) — dn 24 0,63 < 1 = Var( fi) < Var( fp), 
Var( i) (m/2)02/n q 


è concluímos que fi, é mais eficiente do que fz. 
| 2 


Na tabela a seguir, apresentamos estimadores de 4, pe o 


} ódi ão e variância. 
Tabela 7.1: Estimadores para média, proporção eta 
(*) a consistência não foi demonstrada no texto mas é váli 


Exercícios da Seção 7.2: us 
1. Foram sorteadas 15 famílias com filhos num certo ro sd : Ep | 
íli i cola. Os dados foram: 1,1,2,0; 
i de cada família, matriculadas na es la. O 8, 

r o É 34 1 Y, Z, 0,0, eZ. Obtenha as estimativas correspondentes aos 


seguintes estimadores da média de crianças na escola nesse bairro: 
(mínimo + máximo) . 


ñ = 2 á 
~ (X tX. 
A 

fiz =X. 


: iai a9 
Qual deles é o melhor estimador da média e por quê? 


2. Para se estudar a variabilidade em um teste de Inglês (notas de 0 a 5), foram 


; Be 
sorteados 16 alunos de uma escola e suas notas anotadas: 0, ls 2; 1, = z 
3.3.4, 5, 1, 3, 2e 3. Para estimar a variância foram propostos os estimadores. 
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pe 1 Z 
F= no X): 


52 _ (máximo)? — (mínimo)? | 
O9 = DL NU. 


, 


2 | 
deste (Sm 


Obtenha as estimativas e discuta qual é melhor. 


3. O número de reclamações que chegam por hora à uma Central de Atendimento 
do Consumidor foi anotado para uma amostra de algumas horas escolhidas ao 


-a i 
funcionários necessários, se a amostra obsẹrvada foi a seguinte: 2,2, $, A, 4, i 
| g Ss, JOSTA 0 | fo 4 Í 
DA SESLLIALLLILADS 
4. Um ônibus passa por um determinado ponto em intervalos regulares (em 


minutos inteiros) que você, por ser novo no bairro, desconhece. Ao chegar a 
esse ponto você encontra duas pessoas e resolve perguntar a elas sobre “seu 


ônibus. Uma delas diz que está no ponto há quase 10 minutos e o ônibus não: 


passou. A outra está há cerca de 40 minutos e já viu passar dois desses ônibus, 
Faça uma estimativa da demora para passar o seu ônibus. 


5. Um fabricante deseja estudar a duração de baterias que são utilizadas em 
relógios de pulso. Uma amostra de vários lotes fabricados por uma mesma 
companhia foi submetida a testes acelerados e produziram os seguintes tempos 
de duração (em anos): 1,2: 1,4; 1,7; 1,3; 1,25 2:3; 2,0; 1,5; 1,8; 1,4; 1,6; 1,5; 
1,7; 1,5 e 1,3. Determine estimativas para a média e a variância do tempo de 
duração dessa pilhas. Para a variância, use os estimadores da Tabela 7.1. 


7.3 Distribuições Amostrais 


Vimos que estimadores são funções de variáveis aleatórias e, portanto, 


Eq ~ 


Exemplo 7.12: Um jogo consiste em lançar uma moeda honesta 3 vezes. Para 
cada lançamento, se sair cara você ganha 1 ponto, caso saia coroa, você perde um 
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7.4 Distribuições Amostrais 


; Fes? 
— probabilidade dos estimadores X e S-. 


édi iânci X, obtendo- 
Um cálculo simples fornece o valor da média e variância de X, 


s i i istribuídas com função de 
wiáveis aleatórias independentes e identicamente errada ide, 
probak idade igual à de X. A tabela, a seguir, apresenta as p 
probabilidade ig l ru 
respectivas probabilidades e valores de ; 


)s | d b 1 d P 


a amostra (—1,1, —1), temos 


alglelo om 
Tobs = ~; T 1/3; 


2 
il -3C L yyy, 
Sobs = (3 L 1) 
i istribuições dos 
Baseando-se na tabela anterior, podemos construir as distribuiçõ 


estimadores, dadas por: 
2 4/3 
bd Ro a m-i a = da 

pi | 1/8 3/8 3/8 1/8 pi | 1/ 


Os valores esperados podem ser calculados facilmente: um 
E(X) = (-1) x 1/8+(-1/3) x 1/8 + 1/3 x 1/8 +1 x 1/8 = 0; 


E(S?) = 0 x 1/4 + 4/3 x 3/4 =1. 


N - 
N 
~ 


: da i dd à Distribuições Amostrais 
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O édia ju + 
um “X também terá distribuição Normal, com m 
Dessa forma, uma vez que E(X) = 0 = E(X) e E(S)=1= Var(X), ambos variância o?, a média amostral X também 


f . a è ` ide vel 

4 mi P Mi i Pi š A h 3; À em que O 

estimadores são não viciados para os respectivos parâmetros estimados. fa variância o*/n lo resultado acima, podemos concluir que à ie io na 
Note que, pe dade d édia amostral estar ni 

. "EN e de a mé 

No exemplo anterior, pudemos enumerar às possíveis amostras e, assi támanho da amostra cresce, a probabilida 

obter a função de probabilidade dos estimadores de intere se. Nem sempre isse 

será possível. Por exemplo, se X tivesse distribuição Uni me entre —1 e 1, X; 


Xə continuariam sendo independentes e identica 


à e fato é 

izinhi da média populacional torna-se maior. para nd po 

“ão ao aumentarmos o tamanho da amina ra, iet agi 

pea EEEN i adn forma, fazendo a amostra ficar "mais pareet y i o da 

mp n É asim, mál acreditar que a média amostral será próxir a 
população. E, , 


edi: ional. 
média populaciona | hii ar la q 
xemplo 7.13: Considere uma amostra independente pa ep en 
prepa N(10,16). Isto é, Xi, Xo, ... „Xn são am gana eae 
distrib ição Normal com média 10 e variância 16. Com 
distribu 
- P k h Tap” ? e áfico de sua 
' Obteremos concentrar em discutir ; iig A iial aleatória X tem distribuição N(10, 16/n) e o gráfi f 
ai ja à 
: s valores de n. . 
: ins ço ` m l A é do, a seguir, para algun F i val se 
aproximados, dependendo da distribuição de X na população. Quanto à função de densidade é ap ra is È medida que n aumenta, a ir gu É hino 
Como po é a médi ulacional, indica a 
adi e é a média pop PARES i 
, ao redor da média 10, qu uu X próxima da 
das e ie de amostras grandes fornecerem uma estimativa de X p 
proba imda 


o 


variável de interesse é X Ny, 02). Portanto, temos que (Xis Xa, n., Xai 
representa uma amostra aleatória cujos elementos são independentes e 


média populacional. 
identicamente distribuídos » Com densidade Normal de média u e variância o2, ou 


Densidade 
Xi Ny, o°), i=1,..,n; 
X:; é independente de Xj, para todo į £j. 


Vimos que, Para quaisquer constantes 01,...,0n, a combinação linear 
DeerimdE, também tem distribuição de probabilidade dada pelo modelo Normal. 


este resultado ao tomarmos 
;=1 | = 1 Assim, X ~ N 2 ílio d 
Qi n, para i >eus n. Assim, Hz: 0%) e, com o auxílio as 


propriedades da esperança e variância apresentadas anteriormente, temos 


m L 1 
Hg = E(X) = E(=9 X;) qu =A; 
i=1 


- le 1 o 
Da — dp 2 — ; 
oz = Var(X) = dota) = no! = - 


15 X 
10 
5 


içã Xn ,16/n). 
Figura 7.1: Efeito de n na distribuição amostral de X ~ N(10,16/ ) 
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S F Distribuições AMOSA 


Em palavras, o teorema garante que para n grande a distribuição da média 
atral, devidamente padronizada, se comporta segundo um modelo Normal 
Wm média O e variância 1. De imediato, podemos notar a importância do 


Teorema Central do Limite, pois em muitas situações práticas, em que o interesse 
ilizemos a distribuição Normal 


com distribuição No ; 
rmal de média 7,5 . 
>, cmev Â i E unit . 
Pl cm’. O que | taalde na média amostral, o teorema permite que uti 
a para estudar X probabilisticamente. Pelo teorema temos que quanto maior O 


Se definir 
mos por Xe o n 
i comprimento -ési 4 á i ã i 
P da i-ésima peça retiradi laimanho da amostra, melhor é a aproximação. Estudos, envolvendo simulações, 


= 1,...,10, t 
é = L,..., 10, temos que a média d 
as 10 peças a s ' 
er f ; 
S em retiradas, re mostram que, em muitos casos, valores de n ao redor de 30 fornecem, 
para as aplicações práticas. Em casos em que à 


ância 20/10 = 2 cm?. Log Hiproximações bastante boas 
verdadeira distribuição dos dados é simétrica, excelentes aproximações são 


obtidas, mesmo com valores de n inferiores a 30. 
Para verificar o efeito do tamanho da amostra sobre a distribuição de X, 


vamos considerar diversos modelos de variáveis aleatórias e vários tamanhos de 
amostra. Com o auxílio do computador, simulamos a coleta de amostras de um 
determinado tamanho do modelo escolhido. Repetindo essa coleta um número 
de vezes e calculando as correspondentes médias amostrais, podemos 
lizações, que ficaria muito próximo da função de 
o, fixe um tamanho da amostra e repita a coleta 
distribuição Normal. Na prática l 100 vezes. Como cada amostra fornece uma média amostral, temos 100 médias 
amostrais observadas e com elas construímos um histograma. E claro que, quanto 
for a coleta e as repetições, mais aproximado será o histograma, da 


4 


a probabilidade de aceitarmos o lote será 


P(5< X < 10)=P STS Ha 0-T5 
v2 ofm A 


=P{(=1] << LT = 09333. 


obtida da tabela da N(0, 1). 
| grande 


obter um histograma dessas rea 


No que foi discuti < 
cutido até aqui ; i 
dl consideramos a distribuição amostral d babilidade de X. P l 
F probabilidade de 4. For exemp 


média X, calculada em uma amostra 
Variáveis aleatórias independentes e com 


da amostr 
a, O que nos im Ji 
satisfeitas certas E a de utilizar o resultado apresentado. Felizme maior cc 
sieientemente iei ed e ser mostrado que, para um tamanho d ng densidade de X. Teremos, então, através dessa simulação, uma idéia de como X 
ber apasia e, a distribuição de probabilidade da médi Jismga, se comportaria numa amostra grande e poderemos perceber sua semelhança com a 
important ns ua distribuição Normal. Este fato é ds distribuição Normal, conforme assegura o Teorema Central do Limite 
Cotia do a área de Estatística e Probabilidade e É de pu teoremas mais Na Figura 72 apresentamos uma aplicação do procedimento descrito 
o Limite, cuja d 5 enominado Te ' E 5 5 , 
omitida. Ja demonstração requer técnicas mais avançad naja. acima. Procuramos escolher modelos bem diferentes de modo a ilustrar a rapidez, 
çadas e será no sentido do tamanho da amostra, e a qualidade da aproximação. Os modelos 


escolhidos foram Uniforme Discreto (1,10), Binomial (n=5, p= 0,2), 


Teorema Central do Limi 
imite 
Exponencial (À = 2) e o modelo contínuo definido pela densidade: 


1/8 se0<zr<4; 


população com média | e variância o2 nho n retirada de uma 
| | ro={ 


Pode-se observar que, mesmo partindo de distribuição assimétricas, 
discretas ou contínuas, à medida em que o tamanho da amostra cresce, q 
distribuição de X vai se aproximando para a forma de um modelo Normal. À 
velocidade da convergência depende da distribuição inicial, sendo mais rápida nas 


distribuições simétricas. 


p Z, 


u 
o/V'n 


com Z ~ N(0,1). 
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Unifo 
rme (1=10) Uniforme (n=30) Unifo: (n=50) 
| rme (n=º 
Binomial (n=10) Binomial (n=30) 


| Binomial (1=50) 


Exponencial(r=10) Exponencial 
ponencial (1=50) Exponencial (n=100) 


Densidade f(r=10 . 
F(n=10) Densidade f(1=50) Densidade f(r=100) 


ad dh Alo 


Figura 7.2: Efeito do tamanho da amostra sobre a distribuição de X. 


és iá al istri 
orteada. A variável X não tem distribuição Normal e obtemos u=54€ 


2 
o°“ = 4,44, Apes ã imétri i 
pesar de não ser simétrica, consideramos que 40 observações é uma 


amostra gra ici 
grande o suficiente para usar o Teorema Central do Limite. Para calcular . 


a probabilidade da média amostral superar o valor 5, temos: 
X-54 ” 5—5,4 


com este último resultado obtido da tabela da N(0 1) O 


P(X >5)=P( 


Exemplo 7.16: E i 
raei al im uma certa cidade, a duração de conversas telefônicas em 
» originárias de telefones públicos, segue um modelo Exponencial co 
m 


Papítulo 6, 
suficientemente 


forma: 


Tendo em vista o alto valor de probabilidade encontra 
praticamente certo que a média amostral estará abaixo de 4 minutos. 


Hi 
amostra de tamanho n, isto é, 
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jrmetro 1/3. Observando-se uma amostra aleatória de 50 dessas chamadas, qual 
gd a probabilidade delas, em média, não ultrapassarem 4 minutos? 

Representando por X a duração das chamadas, temos X - Exp(1/3). Do 
temos que E(X) =3 e Var(X) = 9. Admitindo uma amostra 
grande, podemos calcular a probabilidade desejada da seguinte 


mi X-—-3 4—3 
PIX < 4) = P(& <= )cP(4< 2,36 = 0,9909. 

(X <4) l 9/50 — E 
do, podemos dizer que é 


(m 


Uma aplicação importante do Teorema Central do Limite relaciona-se 


vom a distribuição da proporção amostral. Recorde que definimos a proporção 


jostral como a fração dos indivíduos com uma dada característica em uma 


número de indiv. na amostra com dada característica 
„ _ número de indiv. na amostra com duda CRT 
p= n 


Se construirmos para o i-ésimo indivíduo uma variável aleatória Y; tal que 


y 1, seo indivíduo apresenta a característica ; 
i 0, caso contrário ; 


podemos reescrever a proporção amostral como 


D E aa C aL OE 
da w E EA » ad 
Logo, a proporção amostral nada mais é do que a média de variáveis aleatórias 
convenientemente definidas. Assumindo que a proporção de indivíduos com a 
dada característica na população é p e que os indivíduos são selecionados 
aleatoriamente, temos que Yi,...,Yn formam uma sequência de variáveis 


aleatórias independentes com distribuição de Bernoulli. Assim, E(Y;) =p e 
Var(Y;) = p(1 — p). Logo, 


Assim, Ð é um estimador não viciado e consistente para p. 
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Tendo em vista o Teorema 
suficientemente grande, 


F-E) 


—— 


D-P_ mo 
/Var(Y) RA Vol — p/n Cs N(o, 1). 


Exemplo 7.17: 
lote é de 40%. Tomada uma amostra de tamanho 30 


Seja W a variável aleatória representando o número de peças defeituosas 
). Logo, se Ð representa a proporção 


na amostra. Claramente, W ~ b(30; 0,40 
amostral de peças defeituosas, temos que 


P(D < 0,50) = P(W/30 < 0,50) = P(W < 15) 


30 
= ( ; Jos4o' 0 go = 0,8250. 


i=} 


Considerando agora a aproximação Normal, temos 
Teorema Central do Limite ' 


P ~ N(0,40, pag -iih . 
30 
Assim, 


P(Ð < 0,50) ~ P( 2 (0,50 — 0,40 


<=> )= P(Z < 1,12) = , 
p-p) 0,40(1—0,40 12) = 0,8686 ; 
J= S jaa 


temos, entã ã 
» então, mesmo para uma amostra não muito grande, uma proximidade 


razoável entre as duas respostas. 
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Central do Limite temos que para 


2 ( 


como conseqüência do 


Exercícios da Seção 7.3: 


|, Uma variável de Bernoulli com probabilidade de sucesso p é amostrada, de 


forma independente, duas vezes. Apresente a função de probabilidade da 
média amostral. 
) número de divórcios por indivíduo adulto casado, em certa comunidade, foi 
modelado pela variável aleatória D, cuja função de probabilidade é 
apresentada a seguir: 

D| O 1 2 3 

pi | 0,5 0,4 0,05 0,05 


Uma amostra, representada por (Dı, D2), foi sorteada com dois desses 
indivíduos e os seguintes estimadores, para a média de divórcios, foram 
considerados: fiy = y.DıDz e fiy = máximo — mínimo. Para cada estimador, 
obtenha sua distribuição de probabilidade e verifique se é viciado. 


Uma variável aleatória assume quatro valores (—2, —1, 1, 2) com igual 
probabilidade. Para uma amostra de tamanho dois, obtenha a distribuição de 
S? e verifique se ele é não viesado para estimar a variância da variável. 


Coleta-se uma amostra de 10 observações independentes de uma N(2, 2). 
Determine a probabilidade de a média amostral: 

a. Ser inferior a 1. 

b. Ser superior a 2,5. 

c. Estar entre O e 2. 


. Supõe-se que o consumo mensal de água por residência em um certo bairro 


paulistano tem distribuição Normal com média 10 e desvio padrão 2 (em mº), 
Para uma amostra de 25 dessas residências, qual é a probabilidade de a média 
amostral não se afastar da verdadeira média por mais de 1 mê? 


. Um fabricante afirma que sua vacina contra gripe imuniza em 80% dos casos. 


Uma amostra de 25 indivíduos que tomaram a vacina foi sorteada e testes 
foram feitos para verificar a imunização ou não desses indivíduos. Se o 
fabricante estiver correto, qual é a probabilidade da proporção de imunizados 
na amostra ser inferior à 0,75? E superior à 0,85? 
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7. A resistência de vigas de madeira utilizadas na construção está sendo estudada, 
O fornecedor atesta que, em média, cada viga resiste a 3 toneladas com desvio 
padrão de aproximadamente 2 toneladas. Vinte dessas vigas serão sorteadas 
para serem utilizadas numa obra. Considerando que é verdadeira a informação 
do fornecedor e supondo que o modelo Normal é adequado, pergunta-se: 

a. Qual a probabilidade de uma dessas vigas supoltar menos do que 1 
tonelada? 


b. Qual a probabilidade de as vinte vigas suportarem, em média, pelo menos 
2,5 toneladas? 


c. Qual a probabilidade em (b), considerando agora 40 vigas e sem fazer q 
suposição de normalidade para os dados. 


7.4 Estimação por Intervalo 


Os estimadores discutidos até aqui são estimadores pontuais, pois 
fornecem como estimativa um único valor numérico para o parâmetro di 
interesse. Por serem variáveis aleatórias, os estimadores possuem uma. 
distribuição de probabilidade e, levando este fato em consideração, podemos. 
apresentar uma estimativa mais informativa para o parâmetro de interesse que. 
inclua uma medida de precisão do valor obtido. Esse método de estimação, 
denominado intervalo de confiança, incorpora, à estimativa pontual do parâmetro, 
informações a respeito de sua variabilidade. Intervalos de confiança são obtidos 
através da distribuição amostral de seus estimadores. 

Consideremos, inicialmente, o intervalo de confiança para a média p de 
uma certa população Normal, com variância conhecida g2. Supondo uma amostra 


de tamanho n dada por (X1,..., Xn), vimos que a média amostral tem 
distribuição Normal com a mesma média 4 è variância 02 /n. Assim, 
E OO 
(4 X — p` 
Vz=^E X 0,1) 


A NO Mha) 


Ea o : 
Fixado um valor y tal que 0 < y < 1, podemos encontrar um valor Zyj2 tal que 
P((Z| < zy) = P(- z2 < Z< zj) =7. 


O índice de 2,» apresenta o valor de y dividido por 2 uma vez que a "massa" y 
deve ser distribuída igualmente em torno de 0 (veja a figura a seguir). 
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f(z) 


Zyn 


Nes f | padrão 
i ormal padrao, 
O valor 2,72 pode ser obtido da tabela da N l 7 nat 
valor de y/2 no corpo da tabela e obtendo o valor 2 
correspondentes. Feito isso, temos O intervalo 


localizando o 
s margens 


=u 


ofyn 


< 2/2 


— Zy < Z< y2 = = %2 < 


g 


que pode ser reescrito como 
o 


X — apa RER da 


. os y 7 A g 
Assim, o intervalo de confiança para u, com coeficiente de confiança y, é dado 
> 


por 


o 5 o | 
j=|X- —=;X+ mp! 
IC(u,y)= |x “a 2 Ta 
i i idado. A 
A interpretação do intervalo de confiança deve ser parda Ipes E 
expressão IC(u,y) envolve a quantidade X que é uma V 


Sri ili le contenha 
portanto, o intervalo obtido também é aleatório. A] as ae Ria X 
o verdadeiro valor da média populacional H é dada por > ea ora T 
torna-se Tops €, como conhecemos o, ne Zy/2,0 interva p e poem 
Desta forma, uma interpretação conveniente é a cárie ri 
amostras de mesmo tamanho e, para cada uma > 


] ciente de confiança Y, 
correspondentes intervalos de confiança com coeficien 
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esperamos qu ã j 
pi a E a proporção de intervalos que contenham o valor d 
: pto a seguir ilustra os conceitos discutidos ii 


, NR cg vez a a distribuição de probabilidade de X é Norm 
9/10 = 0,001 m?, podemos proceder de forma 


desenvolvimento teórico apresent 

para u. Isto é, construimos um intervalo de c 

Estabelecendo y = 95% obtemos da tabela da 
Segue, então, que 
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onfiança para u com coeficiente y, 


Normal Zy/2 = 20,475 = 1,96. 


IC( 41,95%) = E 69 = 1,964 / 0501 0,011 
, , > 196 +; Ela 
V y; b69 + 1,964/ D ] 


= [1,63; 1,75]. 


de go calculado é um daqueles "bons 
média u. Essa razão explica a necessidade 


o que é i $ 
» O que é usualmente considerado é admitir que o intervalo 


É Isto é, ele contém a verdadeira 
e, além de informar o intervalo 


ndice de confiança que foi utili 
° | ilizado. 0 
amplitude do intervalo de confiança é dada pela diferença ent 
ntre o 


“a y/ fm ( 


o que claramente indica que ela depende d 


tama 
nho da amostra n. E usual se referir à semi 
na estimação. 


Veremos, a seguir, como a expressão 


yada) =2x enfoca , 


a confiança y, do desvio padrão o e do 


“amplitude, como o erro envolvido 


da amplitude é influenciada pelo 


seus termos e i 
l destacaremos os aspectos intuitivos dessa influência 


| intervalos maic 
j ue Sa A RA: o. = 2 Ta is 
| Que confiança você atribuiria ao intervalo de O a 2,5 m 


“de indivíduos adultos de uma cidade? 
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distanciamento dos possíveis valores amostrais em relação à média populacional, 


gujo intervalo de confiança estamos obtendo. Dependendo do seu tamanho n, a 


amostra pode fornecer um valor médio (Tops) muito influenciado pelos valores 


Extremos. 
Com relação à am 

for scu tamanho, maior será a quantidade de informação disponível. Note que, 

pela expressão da amplitude, para uma mesma variabilidade o e confiança y, 

valores maiores de n produzem intervalos menores e, portanto, mais informativos. 


Por exemplo, para a altura média de indivíduos, o intervalo 0 a 2,5 metros é 
menos informativo do que o intervalo 1,3 a 1,7 metros. 


Exemplo 7.19: A vida média de baterias automotivas de uma certa marca está 
sendo estudada. Baseado em estudos similares, com outras marcas, é possível 
admitir que a vida dessas baterias segue a distribuição Normal com desvio padrão 
de 4,5 meses. De qual tamanho deverá ser a amostra, para que à amplitude do 
intervalo de 90% de confiança para a vida média seja de 3 meses? 


Para calcular o valor de n, consideramos a equação: 


o 
2x #2 Tn =3. 
n 


Com os valores de 2,72 = 1,64 (y = 90%) e o = 4,5 temos 


2 2x 1,64 x 4 l 
vn = lipo L PALMAS go, 


Como o valor de n precisa ser um número inteiro, escolhemos o maior inteiro que 
contém (4,92)2, obtendo n = 25. Dessa forma, a amplitude do intervalo a ser 
construído será ligeiramente menor do que 3 e, portanto, O intervalo será mais 


m) 


informativo. 

A aplicação do Teorema Central do Limite permite a obtenção de 
intervalos de confiança para u, quando a distribuição das variáveis aleatórias, que 
constituem a amostra, não segue um modelo Normal. Neste caso, o intervalo 
“construído terá um coeficiente de confiança aproximadamente igual a y, sendo 
que esta aproximação melhora à medida que aumenta o tamanho da amostra. 


Exemplo 7.20: Um provedor de acesso à Internet está monitorando a duração do 
tempo das conexões de seus clientes, com O objetivo de dimensionar -seus 
equipamentos. São desconhecidas a média e a distribuição de probabilidade desse 
tempo, mas o desvio padrão, por analogia a outros serviços, é considerado igual a 
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Assim, um intervalo de confiança com coeficiente aproximado y = 0,95 (e 


falta dessa inf; ões nã | 
Ro ormação E era es não tem distribnin ortanto 2,12 = 1,96) é dado por: 
aplicação do bars Precisará ser contornada. Um distribuição conhecida | l ii i i 
Central do Limi a alternativa viável é b (1—p) (1- p) 
usei pa pui — P) a pit = P 
IC(p, 95% [ = Lpa A 1,964/ 2—2] 
(p,95%) = |P t = 
1- 1- 
[0,8 — 1,96 m-s -0,8 + 1,964/ LE a 
n 


p é desconhecido, o intervalo ainda não pode ser 
conhecida dentro da raiz 


Il 


bastante boa. 


e Nestes term 
média do tempo de c 


E 
Lg! 
3 
D 
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a 
< 
G 
fa] 
S 
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e 
o O 
O n 
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OS, um intervalo de conf; 
onexão, será dado por 


IC( 4,92%) ~ ERP 


o 
W=; +z <=] 
yn we = 


=/= at, 
| 500º 25 +1,75 z] 


= [24,45 i 25,55]. 


Note que neste caso, como 
calculado diretamente pois envolve uma quantidade des 


quadrada. , 
Uma possível solução é substituirmos p(1—p) por Pobs(1 — Pata) 
Dessa forma, estamos utilizando a estimativa pontual obtida no lugar do 


parâmetro desconhecido p. O intervalo será: 


0,8 x 0,2 J 


= [ 0,745; 0,855]. 
fato que a expressão p(1 — p) tem 


Verifique essa afirmação, fazendo 
podemos obter 


Outra abordagem possível é baseada no 
valor máximo igual a 1/4, quando 0 < p < 1. 


de aplicaçã 
ção do Teorema C 
e e l 
ntral do Limite vam o gráfico da função p(1 — p) com p variando de 0 a 1. Nesse caso, 
um intervalo de confiança substituindo p(1 — p) por 1/4: 


certo medicam, stimat a proporcã 
mento em doente proporção p de cura, através do uso.de ud | ã = 
ICa(p,95%) = [0,8 — 196/26: 08+ 1,964 EJ 


= [ 0,731; 0,869]. 
Note que este intervalo tem amplitude maior que IC}. 0o 


Temos, portanto, duás alternativas para O cálculo de intervalos de 


107 E 
tamanho de amostra grande pr Central do Limite nos Tção amostral Ð não 
segue que » Poderemos apr garante 
oximá- que, para u À s z a 
la para a Normal. Desse m a confiança para p. A primeira, dada por IC,, é usualmente denominada abordagem 
o otimista, pois parte da crença que à estimativa obtida está suficientemente 
dada por p(1 — p)/n é bem aproximada 


próxima de p de tal forma que a variância 
por P(1— P)/n. Já a outra abordagem, 


abordagem conservativa, pois preferimos sub 


calculada em IC, é conhecida como 


coeficiente de confiança será de, no 


stituir a variância por um valor 


seguramente maior do que o real. Assim, estamos nos assegurando que O 
mínimo, y. Lembrando que a variância de 


k sam | 
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Exercícios da Seção 7.4: 


Mostra de uma po ã - 
a 9. Para uma confiança de pipi r . Sv1o padrão igual 


ed para a média Populacional no 
0, 50 ou 100. Comente as diferenças. 


Estima 
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d, Uma amostra em 100 cidades brasileiras, de até 20 mil habitantes, indicou que 


m 


le 


o valor médio da hora aula para os professores do ensino fundamental em 
escolas municipais é de R$2,5. Obtenha um intervalo de confiança para o 


valor médio nacional da hora aula em cidades do tipo mencionado. Baseado 
em estudos anteriores, o desvio padrão é assumido ser igual a R$1,1. Use 
y = 0,95. 


Numa pesquisa com 50 eleitores, o candidato José João obteve 0,34 da 
preferência dos eleitores. Construa, para a confiança 94%, os intervalos 
otimista e conservador de confiança para a proporção de votos a serem 
recebidos pelo candidato mencionado, supondo que a eleição fosse nesse 
momento. 


5 Exercícios 


Foram sorteadas 20 escolas de ensino fundamental da rede privada, na cidade 
de São Paulo e observado o número classes de la. série em cada uma delas. Os 
resultados foram: 2, 3, 3, 4, 3, 2, 1, 2, 3, 2, 3, 4, 5, 4, 2,4,5,5, l,e 2. Deseja- 
se estimar o número médio de classes nesse tipo de escola, com vistas a um 
futuro levantamento de disponibilidade de vagas. Obtenha as estimativas 
correspondentes aos seguintes estimadores propostos: 


ü, = mediana amostral; 
fa = moda amostral; 
fiz = g 
Tendo em vista o objetivo pretendido, discuta as vantagens de cada um deles. 


O Conselho Regional de Odontologia recomenda visitas periódicas ao dentista 
e, para orientar sua campanha de divulgação, realizou uma pesquisa com 100 
crianças com idades de 12 a 14 anos. Quanto ao número de visitas no último 
ano, a amostra resultou em uma média de 0,5 e mediana e moda iguais a 0. 
Com base nesses dados comente as afirmações abaixo. 

a. A maioria não visitou o dentista no último ano. 

b. Metade da população dessas crianças nunca foi ao dentista. 

c. No último 0,5 ano as crianças tiveram em média 1 visita. 

d. Talvez algumas crianças tenham feito mais de uma visita no último ano. 


Dm 
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Pluto 7: Inferência Estatística . Estima 7.5 Exercícios ao 
3. Um gru 
po de 15 alu : 
Pesquisa sobre ea do curso de Veterinária foi sorteado ; X 
universidad º Número de vestibulares antes de e respondeu a y b. P(4,5 < X < 5,3). 
ia e. Os resultados foram: 3 EEr conseguirem c. P(X < 4,7 ou X > 5,1). 
cule as estimativas para a n Sg dy Ly Ly 3, 3, 2; 3, 3, l, I, 3 2 e! 
i , 10. Em 10 observações de uma variável seguindo o modelo Normal com média 3 


2 ; ~ " a en 
04 = (mediana — mínimo)? . e desvio padrão 2, qual será a probabilidade de a média amostral: 
, 


2 
Os = yi è 
2 = (máximo — mediana)? ; 
> 
1 n 


A? =" 2 n 
aer se -Ir 


a. Ser superior a 1,5? 
b. Ser inferior a 0? 
c. Não se afastar da verdadeira média por mais de 1 unidade? 


= 1 
I1. Trinta observações de uma Normal com média p e variância 36 são coletadas. 


ores —1,0e 1 comi o a. Calcule P(|X — u| < 3). o 
i ‘gual probabilidade b. Determine o valor de a tal que P(|X — u| > a) = 0,9. 


1=1 


12. Sendo a variável amostrada uma Normal de média 4 e variância 25, obtenha o 
valor de P(|X — u| < 2) nos casos de tamanho da amostra igual a 2, 20 e 60. 


Ito sobre o envolvi 
A Vimento e i . 
O seguinte mod Macio acidentes, Comente os resultados obtidos. 
modelo pode ser adotado: Itação), indicam que. 
13. Considere uma amostra de tamanho 30 de uma população Normal de média H 


Núm ; ai 
ero de Acidentes Cl o 15 3 4 e variância o?. Determine P(|X — p| < 1) nos casos em que o? é igual a 16, 
pá 0,3 0,3 0,2 0,1 0,1 


s 64 e 100. Qual a conclusão? 

a. Determine E(X 

Para uma (X) e Var (x). 14. A duração do "tonner" de uma máquina de fotocópias pode ser modelado 
amostra aleatória de 2 desses "; 


b. A distribuição a ás como Normal com média 15 e desvio padrão 2 (em milhares de cópias). Para 
c. E(X )e Var(X) esta do, uma amostra de 12 fotocopiadoras a duração do "tonner" será observada è 
d. Os histo grama d = pergunta-se a probabilidade de, em média, durar: 
sde Xex a. Menos de 16 mil cópias? 
b. Mais de 13 mil cópias? 
c. Entre 12 e 14 mil cópias? 
15. Uma máquina enche pacotes de café com um peso que se comporta como uma 
variável aleatória Normal de média 200 gramas e desvio padrão 10 gramas. 


Uma amostra de 25 pacotes é sorteada e pergunta-se: 
a. Qual é o número esperado de pacotes da amostra com peso inferior a 205 


(num mesmo diagrama). 


6. Determin ili 


7. Sendo X uma Bernoulli com p = 0,6 


x det Í 
3a função de Probabilidade da ermine, para uma amostra de tamanho 


so ediana amostral. 
* “Ma amostra de duas observações da varií 


gramas? 
b. Qual é a probabilidade de que o peso total dos pacotes da amostra não 


exceda 5125 gramas? 

16. Para se ajustar a uma máquina, a correia deve ter entre 60 e 62 cm de 
comprimento. Tendo em vista o processo de fabricação, o comprimento dessas 
correias pode ser considerado como uma variável aleatória com distribuição 
Normal de média 60,7 cm e desvio padrão 0,8 cm. Pergunta-se: 


c X é Binomial com n = 36 p=0,5 


9. Para uma Normal 


= (5, 10) coletou- i 
a. P(X < 4,8). ) coletou-se uma amostra de tamanho 25. Calcule: 
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. Q 1 a a p 
P | l, esco l 
g 
1 


máquina. Calcule a probabilidade de aceitação do lofe 


18. Seja X~N(u,36). 


a. Para uma 
amostra de tamanho 50, obtivemos média amostral 


intervalos com confiança 91%, 96% e 99% para L n C 


b. Para uma confiança de 94%, co 
tamanhos de amostra 25, 50 e 
média amostral igual a 18 5) 

c. Comen isão dos i 

te sobre a precisão dos Intervalos construídos em (a) e (b) 
19. SA dei e comente as afirmações abaixo: | 
a. "A média de salário inici 
nicial para recém for 
e. 2 . e i á 
do salários mínimos com confiança 95%" ici dd 
b. "Quanto maior for o tamanho d ; 


a amostra, maior é q: 
amostral estar próxima da verd » maior È a probabilidade da média 


a adeira média". 
.« Num grupo de i 
X pacientes, o nível d l : 
É serao O e colesterol é uma variáv Sri 
o ja — ps gm desconhecida e variância 64 Sanri com 
š stra de indivíduo 
ri ! s que forneceu nível médi 
a dao construa o intervalo de confiança de 88% ic 
i cë desejasse diminuir a a i i E 
mplitude d 
e rp p o Intervalo encontrado em a), quais 


automóveis desse modelo e obs 


a. Quem seria u i 
m estimador do Adi à 
k consumo m 
desse tipo? umo médio para todos os automóveis 


PS vercícios 


aceita 
tamanho aceito pe 


ro intervalos de confiança supondo três 
(admita que todos forneceram a mesma 
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b. Se a amostra forneceu um consumo médio de 9,3 km/l, construa um 
intervalo de confiança (94%) para a média de consumo desses carros. 

e. Sc a amplitude de um intervalo de confiança, construído a partir dessa 
amostra, é de 1,5; qual teria sido o coeficiente de confiança? 


22. O intervalo [35,21; 35,99], com confiança 95% foi construído a partir de uma 


amostra de tamanho 100, para a média yu de uma população Normal com 

desvio padrão igual a 2. 

a. Qual o valor encontrado para a média dessa amostra? 

b. Se utilizássemos essa mesma amostra, mas uma confiança de 90%, qual 
seria o novo intervalo de confiança? 


23. A dosagem de certa substância no sangue segue distribuição Normal. com 
média u e desvio padrão 15 mg/l. Se uma amostra de tamanho 25 for coletada, 
determine: 

a. A probabilidade de |X — q ser inferior a 5. 
b. O intervalo para p com confiança 98%, se temos Tops = 98 mg/l. 


24. Uma amostra de trinta dias do número de ocorrências policiais em um certo 
bairro de São Paulo, apresentou os seguintes resultados: 7, 11, 8, 9, 10, 14,6, 
8,8,7,8, 10, 10, 14, 12, 14, 12,9, 11, 13, 13, 8, 6, 8, 13, 10, 14,5, 14 e 10. 

a. Fazendo as suposições devidas, construa um intervalo de confiança para a 
proporção de dias violentos (com pelo menos 12 ocorrências). Use os dois 
enfoques e a confiança de 88%. 

b. Em um ano (360 dias) e com a mesma confiança de 88%, qual seria a 
estimativa do número de dias violentos nesse bairro? 

c. Dê uma interpretação para os intervalos encontrados em (a). 


25. Antes de uma eleição , um determinado partido está interessado em estimar a 
probabilidade p de eleitores favoráveis ao seu candidato. Uma amostra piloto 
de tamanho 100 revelou que 60% dos eleitores eram favoráveis ao candidato, 
a. Utilizando a informação da amostra piloto, determine o tamanho da amostra 
para que, com 0,8 de probabilidade, o erro cometido na estimação seja no 
máximo 0,05. 

b. Se na amostra final, com o tamanho obtido em (a), observou-se que 51% dos 
eleitores eram favoráveis ao candidato, construa um intervalo de confiança 
para p, com confiança 95%. 


26. A análise de ocorrência de um mineral numa região é uma variável aleatória 
com média 4 e variância 3/2. A unidade de medida é porcentagem de mineral 
por unidade de volume. Para uma amostra de tamanho 20: 
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a. Que dizer da distribuição de X? 
b. Que tamanho deveria ter a amostra para que P(3,5 < X < 4,5) = 0,957 
27.0t ã ii 
empo de reação de uma pessoa a certa droga é considerado uma variá 


aleatória édi i i 
i com média 5 minutos e desvio padrão 3 minutos. Esse t 
Ido em uma amostra de 80 pessoas esc cidad 


x hi ra f 
São Paulo. Pergunta-se a probabilidade Em UUP bahadir 
a. O tempo médio amostral ser inferior a 557 


b. Ote édi a i i 
mpo médio na amostra não diferir da verdadeira média por mais de 0,4 
i 


28. O comprimento de certo tipo de eixo, produzido 
uma pequena variação de peça para peça. A lei d 
ess i : i 

es comprimentos, é desconhecida, porém admite-se que o desvio padrão é 
rão 


milíme ri 
tros, Uma amostra aleatória de 100 desses eixos, fi 
comprimento médio de 4,52 milímetros Ra Ig 


a. Construa um intervalo, com confiança 90%, 
i desses eixos fabricados pela Duroaço. 
. DÊ uma interpretação para o intervalo encontr 


e probabilidade, seguida p 


para a média do compriment 


ado. Será que podemos dize 


que o intervalo encontrado em (a) tem probabilidade de 0,90 de conter a 


verdadeira média? 


29. i 
9. Numa pesquisa de mercado, desejamos estimar a 
compram o sabonete Bom-cheiro. 


a. 
Que tamanho de amostra devemos colher para que, com probabilidade 0,9: q 


3 Feia não se desvie do verdadeiro valor por mais de 0,057 
i Ee dona a Fi adicional de que a aceitação EM abemi Bom 
no mínimo 0,8, qual deve ser entã i 
ro ;8, ntão o tamanho da 2 
c. Decidimos colher uma amostra de tamanho 81 else 
cometemos com probabilidade 0,9? 
d. Para a amostra de tamanho 81 
seja 0,087 


Qual o erro máximo que 


qual a probabilidade de que o erro máximo 


de Í nry pa ira sao akena os u= X a = (0) mp + 0 p, : | 
2 > 1 > 2. 


31. Sendo X~ b(n = 10, p = 0,5), pergunta-se: À 


a. P õ 
ara uma amostra de 2 observações dessa variável qual é 


média amostral ser superior a 9? Justifique. i 
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pela empresa Duroaço, ter 


proporção de pessoas que 
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b. Para uma amostra de 100 observações dessa variável qual é a probabilidade 
da média amostral ser superior a 4,7? Justifique. 

3}, Para estimar a média das alturas (em metros) numa certa população, dois 


institutos de pesquisa coletaram cada um a sua amostra e usaram estimadores 


diferentes. Os resultados estão na tabela abaixo: 
Tamanho | Estimador | Valor Observado } 
m=10| =X% | 168 | 


[ma = 200 | fiz = (maz + min)/2 | 


Apresente justificativas ao responder as questões abaixo: 

a. Você acha que o valor 1,73 está mais perto da verdadeira média por ter 
vindo de uma amostra maior? 

pb. A verdadeira média deve estar no intervalo 1,68 até 1,73? 

c. Indique qual das estimativas você preferiria usar. 


Instituto 1 
Instituto 2 


43. O tempo de emissão de extratos, em segundos, pelo caixa eletrônico de um 


banco foi modelado segundo uma distribuição Exponencial com parâmetro 
1/40. Para uma amostra aleatória de 50 clientes que solicitaram extratos: 
a. Qual a probabilidade do segundo cliente sorteado na amostra demorar mais 
de 30 segundos na sua solicitação? 
b. Determine a probabilidade de que o intervalo médio de emissão, entre Os 
clientes amostrados, seja inferior a 35 segundos? 


34. O tempo de espera, em minutos, na fila de votação numa certa zona eleitoral 
com urna eletrônica, foi modelado segundo uma distribuição Uniforme 
Contínua com valores entre O e 30. Para uma amostra aleatória de 100 
eleitores, responda: 

a. Qual a probabilidade do último eleitor na amostra demorar mais de 20 
minutos? 

b. Qual a probabilidade da média da amostra ser inferior a 18 minutos? 

c. Você deseja pedir a um amigo que espere um tempo t para lhe dar uma 
carona. Usando a média da amostra, qual deve ser o valor de t para não 
perder a carona com probabilidade 0,8? 


35. Admita que o número de viagens ao exterior é uma variável aleatória, com à 
distribuição abaixo, sendo que o valor de 0 depende da profissão exercida. 


Núm. de viagens | 0 — 2 | 0 — E [0-1 [057] 02(8%4, kh 
Probab: 01 [02 [02/04 | 01 


M 
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Um indivíduo, sorteado aleatoriamente, indicou que fez 4 viagens ao exter 
Com base nessa informação, responda as questões abaixo: 

a. Quais são os valores possíveis de 0 para a profissão do indivíduo escolhi 
b. Dê uma estimativa para o valor de 0. Indique o critério utilizado. 


36. (Use o computador) Com o objetivo de simular a 


istribuição amostral de 
realize as seguintes tarefas: 


n=50 e p=0,45. Comente a respeito 
descritivas obtidas, tendo em vista o Teorem 


37. (Use o computador) Para estudar o comporta 
amostras de tamanho 20 de uma Exponenci 
amostra, calcule a estimativa de $2. 
as medidas descritivas e o histogram 
variância do modelo Exponencial. 


39. (Use o computador) Simule a coleta de 80 obs 
Normal(10, 25) e obtenha o intervalo de confiança (92%) para a média. Repita 


esse procedimento 100 vezes, isto é, obtenha 100 intervalos de confiança, 
Verifique quantos deles contêm a verdadeira média, 


ervações de uma variável. 


>» quantos intervalos conterão a verdadeira média? 
Comente os resultados e as suposições feitas. 


Capítulo 8 


Inferência Estatística - Testes de Hipóteses 


5.1 Ena incipais tópicos da Inferência 
Apresentaremos, neste capítulo, um dos principais tóp iiit t 
id A ar i onc 
In éticas conhecido como teste de hipóteses. CR RA, 
e i través de dois exemplos que ilustram sua utilidade 
técnica atr 
que procura responder. r cumgentração de ceni 
ssoas sadias, a Es 
: a gue, entre pe édia 14 
ixemplo 8.1: Suponh Normal com m 
re no sangue se comporta E dE it a 
« . 
à ã unidades/ml. idades/ml 
idades/ml e desvio padrão 6 aagi 8 unidades/ml, 
lo ag a concentração média da substância alterada raky inerte diem 
O reino ue o modelo Normal, com desvio padrão 6 aii a ÀS com a 
i A as 
m h de forma adequada a concentração da substância em p 
representa o. 5 x ita. 
a A figura a seguir ilustra a situação descrita 


. Doente 
Sadio 


s, representando as concentrações, irão se cruzar em ta 
ia m que uma certa proporção de indivíduos na pop cp 
gd pie nei pa de concentração tão altos quanto yr 
pier r aoga doentes, ainda que este evento ocorra com balxi 
observado 


probabilidade. 
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r +} Introdução 


Desejam : 
Os averiguar se 
um certo tratar 
mento, proposto par: i 
» Proposto para combafgl b se o modelo Geométrico fosse verdadeiro, deveríamos ter, para cada 
valor da variável X, a frequência observada não muito diferente daquela que seria 
a através da distribuição Geométrica que é denominada fregiiência 


indivíduos do 
entes que for ; 
concentrações dos ra submetidos ao tratamento. Representemos 4 
É ms a amostr leulad 
1= 1,2 30 a por X X gnleulac 
ryen, temos X; 1---+ 30. Sabem l , e ; - . 
tratamento ser eficiente = Nu À 14 ou u = 18 d d e esperada. Devido às aleatoriedades envolvidas, poderão ocorrer pequenos desvios 
ou = : i ; e S 
não. Caso a amostra de 30 va a - endo d ë ninda assim o modelo ser adequado. Portanto, vamos decidir pela aceitação ou 
sa valor médi nio da distribuição Geométrica, avaliando a "distância" entre as frequências 
esperadas e observadas. Para avaliar essa distância, consideramos a quantidade 


de ã "próxi 

Na dr mio próximo" de 18 idências de 

ii "= k s ` qs um valor baixo de 14 anida iesi 

read a a ri apresenta resultados satisfatórios Isto E, l! ng 

har ic a O indivíduos podem ser vistos como me bi l 

P ir r ção modelada por uma N(14,36), caso c ária, À s 
pulação N(18,36). A caracterização do que Ei P 

ca se 


aleatória não negativa Q? dada pela expressão 


k .— e: 2 
Q? = yia TS) , 


1=1 


com k sendo o total de categorias e o; e ei, respectivamente, a frequência 


observada na amostra e a frequência esperada da categoria i. Note que valores 
pequenos de Q? indicam que o modelo pode ser adequado aos dados. Por outro 
lado, valores acima de um certo ponto crítico qe devem levar à decisão de rejeitar 
Exemplo 8.2: Deseja-se estudar a tolerânc; o modelo. A determinação de qe 
número de impactos termo-elétri olerância de um equipamento eletrônico associado à decisão. Voltaremos a esse problema na Seção 8.5. 
equipamento, é possível admitir Cos. Pelas características de fabricação ad 
é, após cada impacto, exist que a probabilidade de falha seja const a 

> “XISte uma probabilidade p de que ele falhe Re rf 
verificar se o modelo Geométri mpacios anteriores à falha indo À 
"ico com p = 0,4 é adequado para mad. ra i 


no Exemplo 8.2, a decisão 
estarem em diferentes contextos, o proce 
próxima seção, vamos apresentar à estrutura geral dessa técnica. 


mi não é um simples valor de parâmet Exercícios da Seção 8.1: 
adequação ou nã e metro que está s da 
quação ou não de uma função de probabilidade endo testado, mas sim a 1. Identifique as hipóteses que estão sendo testadas em cada caso. 


Nossa c ï 
onclusão será 
rá baseada nos valores amostrados da variá i ôni 
da variável de sucessivos ônib 
rtes coletivos acha que a pontualidade é muito importante e pre 


transpo 
. ad . i æ ALA a 
testar a afirmação da companhia. 4 = 15 OI. bt 15 


30 mil quilômetros, segundo informação 


Xı X 
g asaj 80. Dess 
de falha no i-é an PON, Xi representa o número de im í 
ei “esmo equipamento testado, ¿i = 1.9 FAROR AtS u gantrnofa 
m podemos construir uma tabela de f tua do A patir dos valores 
grupo de valores) Tegiiência indi 
e suas respectiv é ndicando os val 
à as fre ores (ou 
caso seja conveni quências de ocorrênci 
i à rrênci : 
ente, um certo número de categorias para x. RR Br, 
contendo um 
ou 


Z a 


não é tão grande assim. MW = & corda UU LS 


depende da distribuição de Q? e do possível erro 
mi 


Os exemplos acima apresentam duas situações típicas de teste de 
hipóteses. No Exemplo 8.1, o teste se refere à média populacional, enquanto que 
é a respeito da função de probabilidade. Apesar de 

dimento conceitual do teste é similar. Na 


a. A companhia de transporte afirma que, em média, o intervalo entre 


us é de 15 minutos. Uma associação de usuários de 
tende 


especializadas. Um proprietário de automóvel deseja testar essa afirmação, 
c. Um veterinário conseguiu ganho médio diário de 3 litros de leite por vaci 
com uma nova composição de ração. Um pecuarista acredita que o ganho 


uram em média 


b. Os amortecedores de automóveis que circulam em cidades d 
de algumas oficinas 
W 


mats valores da variável 


2. Garrafas de cerveja deveriam conter 600 ml porém existem flutuações 
aleatórias. Os órgãos de fiscalização permitem oscilações e entendem esse 
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número como a média dos conteúdos engarrafados. Discuta um critério par 
aplicação de multas por diminuição do conteúdo engarrafado. 


3. Um fabricante afirma que sua vacina previne 80% dos casos de uma ce 
doença. Um grupo de médicos desconfia que a vacina não é tão eficier 
assim. Você poderia ajudá-los e indicar como resolver a questão? 

4. Deseja-se verificar se o número de ep o em uma central 
telefonia celular, segue o modelo Poisson com À = 10 falhas /dia. Discuta u 
procedimento para decidir sobre a aceitação ou não do modelo proposto. 


5. Para decidir sobre o vício de uma moeda, são feitos 100 lançamentos é 
número de caras é contado. Aceita-se o equilíbrio da moeda se obtemos ent 


45 e 50 caras, caso contrário, a moeda é considerada viciada. Discuta q 


eficiência do critério. 


8.2 Teste para a Média Populacional 


Vamos desenvolver as idéias gerais de teste de hipóteses supondo, 


inicialmente, que o modelo Normal é adequado para os dados. Situações mais . 


gerais serão comentadas ao final desta seção. | 

No Exemplo 8.1 o interesse consiste em testar se a média populacional u 
é igual a 14, caso em que os indivíduos pertencem à população de sadios, contra a 
alternativa de ser igual a 18, valor que corresponde à população de doentes. Como 
estamos tratando com a média populacional, utilizaremos, no teste a média 
amostral X, um estimador não viciado e consistente de u. Será baseado no valor 
observado de X, denotado por Tobs, que tomaremos nossa decisão a respeito da 
eficácia do tratamento proposto. 

Pelas suposições feitas no Exemplo 8.1, a concentração da substância 
segue um modelo Normal com desvio padrão de 6 unidades/ml. Então, para o 
tamanho de amostra igual a 30, a média amostral terá distribuição N(p, 36/30). 
Por ser uma variável aleatória, X poderá apresentar valores maiores que 14, 
mesmo quando u = 14. De fato, sabemos que P(X > 14 [u=14)= 0,5 pela 
simetria da distribuição Normal. Um critério que pode ser utilizado, para decidir 
sobre o valor de 4, é determinar um valor crítico, digamos z, tal que, se X for 
maior que £e, concluímos que a amostra pertence à população com média u= 18, 
ou seja, o tratamento não é eficaz. Por outro lado, quando a média amostral for 
menor ou igual ao valor ze, concluímos que a amostra pertence à população com 
média yı = 14, sendo o tratamento considerado eficaz. Note que, como X é uma 
variável aleatória contínua, em termos probabilísticos, podéinos incluir a 


i a r 
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ql aldade a Te qualquer uma g . 2 , À gui , e [a 


gonclusões discutidas acima: 


É importante ter em mente que, para a argumentação gd ir 

st cisamos determinar o valor £e € quantificar os erros a pes 
ora se lusões. Observe que, sendo X uma variável aleatória, correm : 

Dam ds par incorretamente que o tratamento é eficaz. r Aon jsa : 
p idir que o tratamento não é eficiente quando ele é. or ne 3 

ines pr ip uantificar os possíveis erros associados à decisão tomada. , 

PO sobre a eficácia do tratamento são denotadas por H, e 


pó Ipó ernativa 
II, e usualmente, denominadas hipótese nula e hipótese alt ý 
, 
a ? d 
respectivamente. Assim, 
H, : O tratamento não é eficaz; 
H, : O tratamento é eficaz. 


j âmetro u e, assim, 
rentes valores do parâ 
issas hipó spondem aos dife 
Essas hipóteses corre 
.podemos reescrevê-las como: 
H, : p = 18 versus Ha : p = 14. 


i i des, são 
As hipóteses definidas da forma acima, sem conter desigualdades, sê 


denominadas 


d r y ija 
e faze com que os indi íduos da amostra mudassem para uma dm cl 
i ef c H | 
média e inferior a 18 unidades/ml, caso contrário, se O tratamento e in caz, 
i i i as como 
ao se alteraria Assim, as hipóteses de interesse seriam escrit 
n . 


H, : p = 18 versus Ha : p < 18. 


Nesta situação, temos o teste de hipóteses unilateral. 
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xI 
(u 8) ou danoso ( > 18), devemos construir um teste de hipóteses bilateralk 


Hesá = 18 VERSUS Hyi pE 18. 


Por conveniência técni i 
ariei técnica, sempre, deixamos a igualdade na hipótese nula 
ois erros que podem s i l 
Ea er co | 
ic a metidos se realizar um teste d 
| i R . . . 2 f . 
Mi EA o a hipótese Ho, quando tal hipótese é verdadeira, e 
/ R ő 
yi rejeitar a hipótese H, quando ela deveria ser rejeitada 


Figura 8.1: Erros associados a testes de hipóteses 


Como i i 
veremos adiante, uma parte importante do teste de hipóteses é | 


controlar a probabilidade de comete 
rmos o erro do tipo I. E ili 
denotada por a, sendo / a probabilidade de erro do Pa I. Isto é ici 


a = Pf(erro tipo I) = P(rejeitar H, | H, verdadeira); 
Ê = P(erro tipo II) = P(não rejeitar H, | H, falsa). 


Considerando as hipó 
C póteses H, : u = 1 ; 
seguinte interpretação para os erros: a PR SEADE a a 
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a = P(concluir que o tratamento é eficaz quando na verdade ele não AR 
B = P(concluir que o tratamento não é eficaz quando na verdade ele é). 


A situação ideal é aquela em que ambas as probabilidades, œ e 8, são 
próximas de zero. Entretanto, é fácil ver que à medida que diminuímos a, a 
probabilidade de erro tipo II tende a aumentar. Identifique, na Figura 8.2, as áreas 
relativas a a e 8 e veja como, dependendo do posicionamento de x, a diminuição 
dente a a implica em um aumento da área correspondente a (3. 
definir as hipóteses, O erro 
a damos o | 


da área correspon 
Levando isso em conta, devemos cuidar para que, ao 


` 


mais importante a ser evitado seja o erro do tipo I. À sua probabilidade 
nome de nível de significância do teste. o E 


Doente (H, ) 


Sadio ( H, ) 


14 x 18 
Região de Rejeição j Região de Aceitação 
ç 
<— > 


Figura 8.2: Representação gráfica dos erros a e À. 


Supondo a conhecido, vamos descrever como determinar o valor crítico 
£e. Inicialmente, note que 
a = P(erro tipo 1) = P(rejeitar Ho | Ho verdadeira) 
|- X-u ve -18 


= P(X < ze |u = 18) RASA: < 6/30 | 
= P(Z < 2), Ne 


com Z ~ N(0,1). Portanto, dado a obtemos z; na tabela da Normal e calculamos 


x. da seguinte forma: 


| 


/ 
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A construção de testes de hipóteses bilaterais é feita de maneira similar à. 
 üpresentada para o caso unilateral, exceto que, agora, devemos considerar uma 
Repião de Rejeição composta de duas partes disjuntas. Para exemplificar, 
suponha que zo é uma constante conhecida e que as hipóteses nula e alternativa 


so expressas como 


Le — 18 =” 6 > 
E = 18 

| 6/30 “ao 

Por exemplo, para a = 0,05 temos, 


0,05 = P(Z < Ze) = Ze = —/1,64: 


logo, Enem 
o" s 03 
Ha : HF Ho- 

A Região Crítica será dada por — 


6 
30 e 
RC={zER:T < 2a 0u L> Taj 


Uma vez colhi 
ida a amostra, se i ; 
» SÈ a estimativa T,». é = 
obs é tal que T 
à obs < 16,20 
e, para um valor a fixado, determinamos os números Te € Tc, de modo que 
P(X < £a ou X > Ta) =a. 


Dada a simetria da densidade Normal, distribuímos a massa œ igualmente entre as 


RC = {x €R : x < 16,20} 
duas partes da Região de Rejeição. Isto é, 


Denomi fl Ra 
ça Região de Aceitação (RA) ao complementar de RC. 
e a amostra obtida forneceu a estimativa 7 X 5 X - 
RC, rejeitamos H, ao ní -ceu à estimativa Top; = 16,04; que pertence À Aak Ti 
poda for dus Tina R a ei de significância a = 0,05. Graficamente a situaçã ; 
bas na Figura 8.3, em que as curv e 

tg de X sob a condição definida por H, (u = N mapp a distribuição 

a (u = 14 para a curva Sadio). PRA a turva Doente) e pai 


A figura a seguir ilustra, graficamente, a escolha dos valores críticos. 


Distribuição de X sob Ho 


Sadio ( H, ) 


Doente ( H, ) 


Xer H (0 Xe, 


Figura 8.4: Representação gráfica da região de rejeição- bilateral. 


14 


1 
Região de Rejeição t 1” 1620 
x obs 


Fi ; 7] í, 
gura 8.3: Representação gráfica da região de rejeição- unilateral 


18 


No próximo exemplo, faremos um teste de hipóteses bilateral e 


calcularemos a probabilidade do erro tipo II. 


ne: 


A 
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Exemplo 8.3: Um : 

Re pequisador deseja estudar i 
x o ; Hà 
de reação de seres vivos a um efeito de certa substância no temp 


E n certo tipo de estímulo. Um experi 

- hr a que são inoculadas com a substância e oe, 

e rm sda Ei amd tempos de reação (em segundos) anotados O 

RE obti os: 9,1; 9,3; 7,2; 7,5; 13,3; 10,9: 7,2: 9 9; 86, 
3 po de reação seg cl ie 

d desvio paraa o = 2 segundos. O pesqui 

mapi E + : 
z Hi mér a ão alteração por influência da substá 


desconfia, entretanto, que q 
ncia. Neste caso, as hipóteses 


Ho: j 
as cobaias apresentam tempo de reação padrão; 
a : as cobaias têm o tempo de reação alterado | 


H, 4 L = 8,0; 
Ha : u # 8,0. 


Uma vez que o teste envolve a média 
amostral X i ísti 
para construir a estatística de teste e X 
Tendo em vista a especificaçã pi 
pecificação de H,,, a região crítica será da forma 4 


RC={LER:T< £a OUT > Th. 
Logo, fixando a = 0,06 temos: 
0,06 = P(erro tipo I) 
= P(rejeitar H, | H, verdadeira) 
= P(X € RC| u = 8,0) 
= P(X < £a ou X > Te | u = 8,0) 
Z mAZN m Zea — 80 e X-80 s Za — 80 
vaio ` apo VAO” ao” 


= PLE <x Ze, ou Z > Zn), 


onde = = : 
distrib Za = (£a — 80)/V4/10, j=1,2 e Z~ N(0,1). D 
Istribuição Normal, segue qem =-1BBém = 1.48 iy . a tabela da 
? ca ce ? i ogo, 


ue, em geral, o modelo Normal com média § 


parâmetro u e podem ser. 


populacional, consideramos a média 


— Nico 
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to = 8 — 1,88//4/10 = 6,8; 
to, = 8 + 1,88/4/10 = 9,2. 


Assim, podemos expressar a Região Crítica para a = 0,06 como 


RC = {x ER: 7 < 6,8 ouz > 9,2}. 


Calculando a média amostral obtemos Tops = 9,1. Como este valor não pertence à 
RC, aceitamos a hipótese H, ao nível de significância 69. Em outras palavras, 
concluímos que o tempo de reação das cobaias submetidas à substância não fica 


alterado. 
Podemos também calcular a probabilidade 8 do erro tipo II, isto é, a 


probabilidade de estar aceitando incorretamente Ho. Note que para calcular a, pt 
está bem especificado, o que não é o caso para o erro tipo II. Como a hipótese 
alternativa é composta, existem diversos valores possíveis para p. Dessa forma, B 
será função de qual valor de u foi escolhido dentro da região definida pela 
hipótese H4. Nesse caso, a probabilidade do erro tipo II será denotada por (pu). 


Por exemplo, para p = 9,0 teríamos 
8(9,0) = P(erro tipo II) 
= P(não rejeitar H, | Ho falsa) 
= P(X ¢ RC| u = 9,0) 
= P(6,8 < X < 9,2|u = 9,0) 
- p(SE SE X -9,0 ” a] 
“Vino “Vino é vao 
= P(-348 < Z<0,32) i 
= 0,4997 + 0,1255 
= 0,6252. 
Assim, em sendo u = 9,0 e com probabilidade 0,6252 estaríamos concluindo, 


- forma equivocada, que Ho é verdadeira. 


Para caracterizar o desempenho do teste, definimos a função poder por 
z(u) = Plrejeitar Ho | u). Note que, se o valor de 
‘Igual ao nível de significância æ.. Sendo u um dos valores de 


será dada por x(u) = 1 — BJ. Para um mesmo nível de significância a 
r melhor o teste, mas essa discussão não será feita neste texto 


maior o pode ; 


de 
o 
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recomendamos a leitura das referências mencionadas na bibliografia. Para o 
Exemplo 8.3, a função poder é apresentada na figura a seguir, na qual pode-se 
observar que à medida que nos afastamos da região da hipótese nula, o poder 


aumenta, atingindo valores próximos a 1. A curva apresentada é típica de um teste 
de hipóteses bilateral. 


(u) 


1,0 


0,8 
0,6 


0,4 


5 e` 7 8 9 10 11 


Figura 8.5: Função Poder, 

Nos exemplos anteriores, fixamos a probabilidade do erro tipo I para 
encontrar a região crítica que foi utilizada como regra de decisão. Já vimos que 
não é possível diminuir os dois erros, simultaneamente, num mesmo teste. Por 
exemplo, na comparação dos grupos doente e sadio, observamos, através da 
Figura 8.2 que, ao diminuirmos um dos erros, estamos necessariamente 
aumentando o outro. Como alternativa para diminuir simultaneamente os valores 
de a e p, temos que recorrer a um aumento no valor de n, o tamanho da amostra. 
De fato, quanto maior n melhor é cisão d l 


oder do teste. Observe que a variância do estimador 
medida que n cresce. 
ana que m cresce, 


or utilizado e maior é o 
= > a a CA 
X é 0?/n, que diminui à 


Nos testes desenvolvidos nesta seção, duas suposições básicas foram 
variável aleatória de interesse na população segue o modelo Normal e sua 
variância é conhecida. A ausência de normalidade pode ser contornada com o 


feitas: a 


==} 
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imi é tras randes 
auxílio do Teorema Central do Limite o qual garante que, a TE gra , 
média amostral tem distribui casos, pratica n 
édi tribuição Normal. Nesses , n ente não nara á 
a e p : : É ois continuamos a usar à 
i ue estudamos até agora, p ; x E 
a ração nos rocedimentos q 3 ak , d 
Pi aei Normal para estabelecer a regiao critica. Entretanto, se a istit f n» 
co cida, ela precisa i i 1S 
desconhe ida, el isará ser estimada e precisaremos de uma nova distribu ção 
id 


para X. Discutiremos esse caso na Seção 8.3. PEPEE EE 
ir, um sumário 
Apresentamos, a seguir, u 


teste de hipóteses: 


Figura 8.6: Etapas de um teste de hipóteses. 


i i teste 
Concluímos essa seção ilustrando as etapas acima anpi com pib 
de proporção. As definições, técnicas e conceitos utilizadas na realização o éra 
de hipte para a média populacional são aplicáveis, quando o ti id 
ísti ã xi em ! 
na proporção de alguma característica na população. O próximo exemp 
esse caso. l 
ia afi a água 
Exemplo 8.4: Um relatório de uma companhia afirma que eira de Ea ae É 
m i é . aS 
obtida, através de poços artesianos no nordeste, é salo e ag 
s a : o , 
controvérsias sobre essa informação, alguns m que a a a jog 
o a e 
é dirimir as dúvidas, poç E l 
ros que é menor. Para l k k t 
Ea se, em 120 deles, água salobra. Qual seria a conclusão, ao ri si cal 
~ ® z A A a 
° Iniciamos com a definição das hipóteses. O parâmetro de inter do 
nordeste, 
orção de poços com água salobra dentre todos os poços l p pi 
ro R À 
R ET essa proporção por p. Pela informação fornecida, de 
epr 
“realizar um teste bilateral, com 


H, : p = 0,40; 
H, : p # 0,40. 


ia À 
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Sabemos que o melhor estimador 


distribuição pode ser bem aproximada por um modelo Normal, isto é, admitimos 


DP-N(p,p(1— p)/n). 


Dado que o teste é bilateral, a Região Crítica é da forma 


RC=(zeR| T < Pa OUT > pel 


Para a = 0,03; os valores Pe, € Pe, são calculados através de 


5 0,03 se 0,03 
P(P < pa |H) = “q º PPS po |Ho)= >. 


Sob a hipótese H,, p = 0,40 e, portanto, temos P ~ N (0,40; Ò 4/400). Assim, 
R D-0,40 ps, — 0,40 
P(p < pelH,) = P( 4 < = 
(P < pa lHo) STT JO 200 
= 0,015. 
Da tabela da N (0, 1) segue que 


Pad air 
V/0,24/400 


Assim, obtemos Pea = 0,847. De forma análoga encontramos Deo = 0,453 e a 
região crítica será dada por 


RC=(zER|7<0,347ougz> 0,453). 


A amostra forneceu Pp, 


= 120/400 = 0,300 que pertence à região crítica. Dessa 
forma, concluímos que a 


hipótese nula deve ser rejeitada ao nível a = 3%, isto é, 
o relatório da companhia não está correto. 


E 


Exercícios da Seção 8.2: 


1. Uma variável aleatória tem distribuição Normal e desvio padrão igual a 12. 
Estamos testando se sua média é igual ou é diferente de 20 e coletamos uma 
amostra de 100 valores dessa variável, obtendo um 
a. Formule as hipóteses. 


b. Obtenha a região crítica e dê a conclusão do teste para os seguintes níveis de 
significância: 1%, 2%, 4%, 6% e 89%. Sy 


e”. 
À sd 


a média amostral de 17,4. 


> 


ses 


para p é a proporção amostral p cuja 
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io padrão 5, o teste da 
iac idade Normal e desvio padrão 5, ; 
ri iável aleatória com densida m o de 
2. Para uma Erirsnos u = 14, teve a região crítica dada por {x E pad ii 
irma ostra de tamanho 25. Determine as probabilidades dos 
para uma am 
e Il. 


i ári as domésticas na 
do foi desenvolvido para avaliar o salário de gi agem e é 
ms São Paulo. Foram sorteadas e entrevistadas É e So 
pres gba dessa padrão dessa variável na cidade é de O, $ 
Admita que O 
por i X ão, é possível fazer 
a. Você onhece a distribuição do estimador X? Se não, é p 
a. Você c 
a i ári íni u é menor, 
E rap ue se a média é igual a 3 salários mínimos O 
b. Deseja-se 
co. i rage 3%, construa a região crítica. 
K -onificância de 3%, = 
ível de significânci E: ge Tuni 
T stra ig média de 2,5 salários mínimos, qu 
d. Se a amo 


conclusão? 


i óvel é /litro 
i de automóvel é de 15 km $ 
édi asolina num certo tipo d rel Er 
pio “da montadora. Uma revista especializada geo : 
popa 25 pi veículos, escolhidos ao acaso, € ma ome e 
cs i 14 3 km/litro. Admita que o consumo siga O modelo a 
médio de 14, r A 
iância igual 9 (km/litro)*. e i PEEN 
a eia ya significância de 6%, a afirmação da montadora ] que a 
= de iinaor é igual a 15 km/litro, contra a alternativa de ser igu4 
média de con 
14 km/litro. l l 
b. Determine a probabilidade do erro tipo I. 


é horas, 
l âmpadas de certa marca é 1615 
: zdi ma amostra de 100 lâmpadas de io padrão 
Ra vida mA i E o outros processos de fabricação, supomos O ren e de 
a P e at Utilizando a = 5%, desejamos testar se a duração par sá 
oa e maba dessa marca é igual ou é diferente u o Ep A fosse 
gi ne ses também a probabilidade do erro tipo II, se a mé o 
conclusão? 
1620 horas. 


x com verminose, 
iador tem constatado uma proporção de 10% do m id 
r aa io alterou a dieta dos animais e acredita que a do AP ii 
o 
o imã Um exame em 100 cabeças do rebanho, esco idas pin 
3 à En i 
ap e las com verminose. Ao nível de 8%, há indícios q 
indicou e 
proporção diminuiu? 
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8.3 Teste para a Média com Variância Desconhecida 


Os testes de hipóteses e intervalos de confiança para média, que 
apresentamos até agora pressupõem que o valor da variância populacional é 
conhecido. Apesar de ser um caso particular, existem várias situações em que essa 
suposição é bastante razoável. Por exemplo, num processo industrial, se pudermos 
assegurar que uma certa máquina fornece medidas com precisão constante, 
teremos sua variabilidade conhecida. Uma outra situação seria aquela em que 
podemos utilizar resultados encontrados em outros trabalhos, ou até mesmo em 
experimentos estatísticos anteriores que mantenham alguma similaridade com 0 
problema de interesse. Entretanto, no caso mais geral, quando não temos 
informação sobre a variância da Variável aleatória que está sendo estudada, 
precisamos contornar essa dificuldade. Inicialmente, m os a suposição de 
que a variável aleatória de interesse tem distribuição A i não Normal 


será comentado no final da seção. 


Se o desvio-padrão é desconhecido, ele precisa ser estimado. Supondo . 


que nossa amostra aleatória seja representada pelo vetor de variáveis aleatórias 
(X1,..., Xn), todas elas com densidade Normal de média | e variância o2. Vamos 
utilizar o "melhor" estimador que conhecemos para o? que, como visto no 


Capítulo 7, é a variância amostral S? = (5X? — nX’)/(n — 1) 
N i1 


Definindo agora a variável padronizada 


ad-e [E-A 
VS2/n | S/Vn 


vemos que T' também é uma variável aleatória. Entretanto, apesar de X ter 
distribuição Normal, o denominador envolve a variável aleatória S2, que fará com 
que a função densidade de T seja diferente da Normal. Esta nova densidade, que 


pode ser deduzida teoricamente, é denominada t de Student e seu parâmetro tem o . 


nome de graus de liberdade, neste caso correspondendo ao total de dados menos 
1. A notação utilizada será tn-1) e, devido à complexidade da sua função 
densidade, as probabilidades são obtidas de tabelas construídas numericamente. A 
exemplo da Normal, o modelo t-Student tem densidade em forma de sino, 
entretanto as caudas tem maior massa que a N(0,1) (veja a Figura 8.7). 

ii Vale notar que, se o tamanho da amostra aumenta, a densidade t-Student 
converge para a Normal padrão. Por esta razão, as tabelas construídas se limitam 
a valores de graus de liberdade menores ou iguais a 120. Para os graus superiores 
a 120, as probabilidades são obtidas da tabela da distribuição Normal e 


ja c iância Desconhecida 
8.3 Teste para a Média com Variância I 


êndi al fato é üência da 

ntados por "oo" na tabela do Apêndice A. Tal fato é ia a d ps 

ida uantidade ! se 
pedra do estimador S? para o?, que faz com que a q 


i ra. 
aproxime de Z à medida que aumenta o tamanho da amost 


—— t-Student 
menens Normal Padrão 


Figura 8.7: Densidade t- Student. 


ipó í ue a 

Diferentemente do teste de hipóteses, construído para o E pi mey 

N A i 

' variância é conhecida, a região crítica envolverá agora o ig : om feira 

uantidade aleatória. Dessa forma, amostras diferentes Rr rena so 

o ; ivelmente, elas produzirão estimativas 

críti isti uma vez que, possive ; ! 

Err eps Assim quando a variância for desconhecida, optaremos por 

diferentes para o”. Assim, do a variância for de daria 
utilizar na região crítica valores da quantidade padronizada T . Apres 


procedimento no próximo exemplo. 


Ésti im altera O 
Exemplo 8.5: Deseja-se investigar se uma certa im que pe dps E e 
e oxigêni ÓTgã indivíduos sadios, admite-s S$ 
esse órgão. Para indiv ah 
consumo de oxigênio d ir -Me lida 
consumo tem distribuição Normal com média 12 cm a E ig Er dest 
i Ésti : 14,4; 12,9; 15,0; e 13,5. seria í 
cinco pacientes com a moléstia foram: 14, à 124 150, dA, E 
š ível de 1% de significância? 2: e. 45h 
conclusão, ao nível de 1% de sign yr. 
O teste de interesse é: | 
H, : A moléstia não altera a média de consumo renal de oxigênio; 
5: 


H, : Indivíduos portadores da moléstia têm média alterada. 
a É 
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Em termos da média Populacional, estamos testando as hipóteses: 
H:u=12 versus Ha : p £ 12, 


e a região crítica é da forma 
RC = {tE R|t< tiou t> toh. 


Sendo o? desconhecido, usaremos o estimador 8? = (3) X2 — nX?)/(n — l)ea 
1=1 


quantidade t discutida anteriormente. Sendo H, verdadeira, temos 


X-12 
T=>D"Deta. 

S//5 (4) 
Logo, 


P(T<h)=0,01/2= ti = — 4,604; 
P(T > ta) = 0,005 = t, = 4,604; 


sendo o valor 4,604 obtido da tabela da distribuição t-Student, co 


m 4 graus de 
liberdade. Assim, a região crítica será dada por 


RC = {t € R|t < — 4,604 ou t > 4,604}. 


Sendo T,p; = 18,90 e Sa = 0,67; calculamos o valor padronizado 


Tohs— 12º 13,90-12 E 
Sobs/VD oey US 


Portanto, como top, E RC, decidimos pela rejeição da hipótese nula, ou seja, a 
moléstia tem influência no consumo renal médio de oxigênio ao nível de 1%. O 


tobs = 


Intervalo de confiança para p com variância desconhecida 


Quando a variância é desconhecida, construímos intervalos de confiança 


para a média populacional utilizando o modelo t-Student. O procedimento para a 
obtenção do intervalo é semelhante ao desenvolvido no capítulo anterior. 


Supondo uma amostra aleatória X4,...,X, obtida de uma população com 
distribuição Normal com média e variância desconhecidas, temos que 
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X-u 
~ tn-1)- 
S/yn 
Desta forma, fixando-se o coeficiente de confiança 


= de 
tabela da distribuição t-Student com n — 1 graus 
podemos obter o valor t,,/2 tal que 


Da ilizando a 
(0<7y<1)e uti i 
entie (ver Apêndice A), 


X-u E 
ZTE a ag 
Pl- tue < gra Y/ 
i , com variância 
| tervalo com coeficiente de confiança y para H 
Logo, o in 
desconhecida, será dado por 


nd! 


S à 
é S ey ] D 
=: X + ty- 
C(u, 7) = [X — dia wa gn 


anterior, uma vez que decidimos pela 

rani wi intervalo de confiança para a 

2 =0.67. 

idos Z., = 13,90 e s2, = 0,67 

obtidos Tobs "o 
buição t-Student com 4 graus 


Exemplo 8.6: Considerando o pita 
rejeição da hipótese nula, é boa prá E a 
média populacional. Naquele exemplo eh 
Com y= 0,90 obtemos, da tabela da di 


- liberdade, t4/2 = 2,132. Logo, 


V'0,67/5 
IC(u, 90%) = [13,90 — 2,132,/0,67/5; 13,90 + 2,182 75] 
| = [13,09; 14,71]. | 


. f ão de rejeição 
Note que o int a, confirma-se a conclusão J 


ssa form 
a hipótese nula no Exemplo 8.5. De 
a 'ância desconhecida, nã 
l iável de interesse, além de ter variância d a a 
E ário utilizar técnicas não-p am 
erre sa metodologia aqui, 
novamente, considerar 


o tiver 


dai ser de média. Não apresentaremos es 

3 ” e . aii á 
lização do teste Idade é i 
neta um caminho para contornar essa apt a so, É sabio que S2 se 

en , .. e. . ~ o 
ente gran licação do 

tra suficientem AS com uma aplicaç 

um tamanho de amos untamente ese agro 
2 de tal forma que o seu pen r X como tendo distribuição 
dia to de vista 


aproxima de o ori um i 

Teorema Central do Limite, ae rp do po 
aproxim 

Normal, resultando em 


prático. 
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l Os procedimentos adotados nos testes realizados até agora consistiram em 
fixar º nível de significância e, a partir dele, obter a região crítica para tomar a 
decisão de aceitar ou rejeitar a hipótese nula. Esse caminho é conhecido como 
procedimento clássico de testes de hipóteses. Uma alternativa, usualmente 
escolhida por pesquisadores e usuários da Estatística, consiste em nia fixar a à 
priori. Este será o assunto da próxima seção. 


es 


Exercícios da Seção 8.3: 


1. Com o auxílio da tabela t-Student calcule 
a. P(-3,365 < ts < 3,365). 
b. P(|ts| < 1,4). 
e P(-11<tu< 2,15). 
d. O valor de a tal que P(ty > a) = 0,02. 
e. O valor de b tal que P(ty, < b) = 0,05, 
f. O valor de c tal que P(|tn| < c) = 0,107 
g. O valor de d tal que P(|t»| > d) = 0,05. 


(se necessário, aproxime): 


UA, 


2. Uma amostra com 10 observações de uma variável aleatória Normal forneceu : 
pi de 5,5 e variância amostral 4. Deseja-se testar, ao nível de significância 
e 5%, se a média na população é igual ou é menor que 6. Qual é a conclusão? 


3. Admitindo que a pressão sangiiínea arterial em homens siga o modelo Normal 
. . s 
7 pacientes foram sorteados e tiveram sua pressão medida com os seguintes 
resultados: 84, 81, 77, 85, 69, 80 e 79” 
a. Teste que a média é 82 contra a alternativa de ser 80. Use a = 2%. 


b. cd O intervalo de confiança para 4 com coeficiente de confiança 
= o. 


4.0 tempo de permanência de engenheiros recém formados no 1º emprego, em 
anos, foi estudado considerando um modelo Normal com média e variância 
desconhecidas. Por analogia com outras categorias profissionais, deseja-se 
testar se a média é 2 anos contra a alternativa de ser 3 anos. Para uma amostra 
de 15 engenheiros, a média obtida foi de 2,7 anos e o desvio padrão hamn, 
1,4 anos. Ao nível de 1%, qual a conclusão do teste? i 


5: Uma amostra de 20 observações de uma variável com distribuição Normal foi 
colhida, obtendo-se desvio padrão 1,1. No teste u =5 contra HL > 5, foi 


estabelecida a região critica {t € R|t > 2,033}. Determine a probabilidade do 
erro tipo I. 


8.4 Nível Descritivo 
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6. O número de pontos em um exame de inglês tem sido historicamente ao redor 
de 80. Sorteamos 10 estudantes que fizeram recentemente esse exame e 
observamos as notas: 65, 74, 78, 86, 59, 84, 75, 72, 81 e 83. Especialistas 
desconfiam que a média diminuiu e desejam testar essa afirmação através de 
um teste de hipóteses, com nível de significância de 5%. Fazendo as 
suposições necessárias, qual seria a conclusão do teste? 


8.4 Nível Descritivo 


Ao realizarmos um teste de hipóteses, partimos de um dado valor de a, 
pré-fixado, para construir a regra de decisão. Uma alternativa é deixar a cargo de 
quem vai utilizar as conclusões do teste a escolha do valor para a probabilidade a, 
que não precisará ser fixado à priori. A idéia consiste em calcular, supondo que a 
hipótese nula seja verdadeira, a probabilidade de se obter estimativas mais 
desfavoráveis ou extremas (à luz da hipótese alternativa) do que a que está sendo 
fornecida pela amostra. Esta probabilidade será o nível descritivo, denotado por 
a* (ou P-valor). Valores pequenos de a* evidenciam que a hipótese nula é falsa 
pois, sendo a amostra nossa ferramenta de inferência sobre a população, ela 
fornece uma estimativa que teria probabilidade muito pequena de acontecer, se 
Ho, fosse verdadeira. O conceito do que é "pequeno" fica a cargo do usuário, que 
assim decide qual a usar para comparar com o valor obtido a*. 

Inicialmente, vamos considerar o caso do teste de hipóteses unilateral. 
Para Ho: 4 = lo, a expressão de a*- depende da hipótese alternativa, isto é, 


a* = P( X < Tobs| Ho verd.) para Ha : H < Ho 
ou 
of = P( X > Top|H, verd.) para Ha : p > po. 


Exemplo 8.7: Uma associação de defesa do consumidor desconfia que. 
embalagens de 450 gramas de um certo tipo de biscoito estão abaixo do peso. Para 
verificar tal afirmação, foram coletados ao acaso 80 pacotes em vários 
supermercados, obtendo-se uma média de peso de 447 gramas. Admitindo-se que 
o peso dos pacotes segue o modelo Normal com desvio padrão de 10 gramas, que 
conclusão pode ser tirada através do nível descritivo? 

O teste que está sendo executado é 


H, : u = 450 (peso médio conforme previsto na embalagem); 
Ha: p < 450 (peso médio abaixo do previsto na embalagem). 
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O valor observado na amostra foi Tobs = 447 e as suposições feitas sobre 
a normalidade da variável peso implicam que X ~ N (u, 100/80). Então, 


'ot=P(X < Tobs| Ho verd.) = P( X < 447 | u = 450) 
= P(Z< — 2,68) = 0,0037; 


Portanto o nível descritivo é de 0,37%, indicando a probabilidade de que 
encontremos valores da estimativa mais desfavoráveis à hipótese nula. Note que o 
valor do nível descritivo se relaciona diretamente com o nível de significância. 
Neste exemplo, se tivéssemos fixado o nível de significância em qualquer valor 
igual ou superior a 0,37%, a conclusão seria pela rejeição de H,, ao passo que 
valores inferiores a 0,37% conduziriam à aceitação da hipótesa nula (ver Figura 
8.8). 0 


Distribuição Normal Padrão 


a’ = 0,37% 


- 2,68 0 


Figura 8.8: Nível descritivo unilateral. 


Para o teste de hipóteses bilateral, ao calcularmos o nível descritivo, 
precisamos considerar que a forma da região crítica envolve os valores de Tops 
que se distanciam muito (para mais ou para menos) daquele previsto pela hipótese 
nula. Dessa forma, um procedimento usual é multiplicar por dois a probabilidade 
obtida em uma das caudas, de modo a preservar a idéia de afastamento bilateral, 
Assim, ao testarmos Ho: u = Ho contra Ha: u Æ Ho, a definição do nível 
descritivo depende da relação entre Tops € Ho. 


1° caso: se Toby < Ho, 0! =2 x P(X Boo] Ho verd.); 


12 caso: se Tobs > Ho, Q* =2 x P(X > Tobs| Ho verd.). 
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No caso bilateral, o nível descritivo leva em conta a posição relativa entre a 
estimativa Tops € O valor Ho. Desta maneira, garantimos a inclusão de valores 
mais extremos do estimador em relação à o . A Figura 8.9 ilustra esses casos. 


Se Rois > p,: região desfavorável a H, 


Xobs 


Se Xobs < Ho: região desfavorável a H, 


Xobs 


Figura 8.9: Regiões desfavoráveis num teste bilateral com Ho: p = po. 


Exemplo 8.8: Vamos considerar o teste apresentado no Exemplo 8.3. As 
hipóteses sobre o tempo de reação de cobaias, submetidas a um estímulo elétrico, 


foram as seguintes: 


H, : u = 8 (tempo médio de reação sem alteração) ; 
H, : u + 8 (tempo médio de reação alterado). 


Para uma amostra de 10 cobaias, observou-se Tops = 9,1. Com as suposições já 
feitas naquele exemplo (normalidade com o = 2 segundos), podemos obter o 
nível descritivo. Note que aqui os valores da estimativa mais desfavoráveis em 


` relação à H, correspondem a região X > 9,1. Assim, temos 


a* = 2 x P(X > Top) Ho verd.) 
=2 x P(X >9,1|u = 8) A a E quo 
=2 x P(Z > 1,74) Ta A, 
= 0,0818. 
Logo, se desejarmos utilizar um nível de significância igual a 0,05 concluiríamos 


pela aceitação da hipótese H,, ao passo que um nível de significância igual a 0,10 
nos levaria a rejeitar a hipótese H, (ver Figura 8.10). 
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-1,74 0 1,74 


Figura 8.10: Nível descritivo bilateral. 


E e descritivo nos fornece uma idéia da intensidade com a qual estamos 
ejertando, ou não, a hipótese nula. Dessa forma, tem papel importante do ponto 


de vista exploratório, um 
ÓTIO, a vez que pode nos fornecer indi Õõ > 
Icações p 
futuras. ç ara pesquisas 


Exercícios da Seção 8.4: 


1. Um pesquisador está realizando um teste para a média e obteve nível descritivo 


igual a 0,035. Ele aceitará a hipótese nula para níveis de significância 
superiores ou inferiores à 0,035? 


2. Uma variável aleatória tem distribuição Normal e desvio padrão igual a 10 
Uma amostra de 50 valores dessa variável forneceu média igual a 15,2 Pará 
cada um dos testes abaixo responda qual é o nível descritivo. o 
a. Ho : p = 18 versus H, tb= Tiga 
b. H, : u = 18 versus H, : u <18. 

e Ho : p = 18 versus H, : p £ 18. 
d. H, : u = 17 versus H, : p= 14. 


p 


A resistência de um certo tipo de cabo de aço é uma variável aleatória 
modelada pela distribuição Normal com desvio padrão 6 kgf. Uma amostra de 
tamanho 25 desses cabos, escolhida ao acaso, forneceu média igual a 9,8 kgf. 


Par: = = : í iti 
À a o teste H= 13 contra yu = 8, qual é o nível descritivo? Que conclusão 
você consideraria adequada? 
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4. Sorteamos, ao acaso, 12 observações de uma variável aleatória que segue o 
modelo Normal. Da amostra obtivemos média 21,7 e desvio padrão 5,5. 
Determine o nível descritivo do teste y = 18 contra u > 18. 


8.5 Testes Qui-Quadrado 


Apresentamos, nesta seção, três testes que utilizam o modelo Qui- 
Quadrado como estrutura probabilística e, por essa razão, são denominados, de 
forma geral, Testes Qui-Quadrado. Iniciamos testando a adequabilidade de um 
modelo probabilístico para uma dada situação, depois discutimos o teste de 
independência entre duas variáveis e encerramos a seção com o teste de 
homogeneidade de subpopulações. 

Nas seções anteriores, nosso problema foi testar hipóteses sobre os 
parâmetros média e proporção. Em geral, as formas das distribuições de 
probabilidade eram conhecidas (ou seriam aproximadas) e tínhamos que decidir 
quanto a aceitar uma ou outra hipótese, sobre o valor desse parâmetro. Em termos 
práticos, outra situação comum é termos observações de uma variável aleatória 
cuja distribuição na população é desconhecida. Nesse caso, uma das primeiras 
providências é tentar identificar o comportamento da variável com um modelo 
teórico. Em algumas situações, é possível incorporar informações de outras 
variáveis que descrevam fenômenos aleatórios similares e tenham distribuição 


“conhecida. Dessa forma, teríamos um candidato a modelo e nosso problema seria 


estabelecer um procedimento para aceitá-lo ou não. Existem, contudo, vários 
outros casos em que não se tem a menor idéia do comportamento da variável, 
Uma das maneiras iniciais de análise é construir um diagrama, com as frequências 
de ocorrência, nos moldes do histograma. Dessa representação gráfica, pode sair a 
sugestão de modelos adequados aos dados. Em qualquer caso, o modelo proposto 
pode ser testado através do chamado Teste de Aderência. Nesta seção, 
apresentaremos um desses testes que usa a distribuição Qui-Quadrado, outros 
testes de aderência podem ser encontrados nas referências mencionadas na 


bibliografia. 


Considere uma variável X para a qual temos uma amostra de valores e 
deseja-se verificar a adequação ou não de um certo modelo probabilístico. Os 
valores observados da variável foram divididos em k categorias contendo, cada 
uma, um ou mais valores que são apresentados numa tabela de freqiuiência: 


Caga a E] 
"Freg, Obiepuada [or oaoa [== [0% | 
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Se X for discreta, as categorias são os próprios valores da variável, eventualmente 
agregando mais de um valor na mesma categoria. No caso contínuo, as categorias 
são definidas a partir de faixas de valores da variável. Do modelo que está sendo 
sugerido, calculamos as fregiiências esperadas em cada uma das categorias, 


Assim, 
Caesa Ji [E [E E 
(Freq. Esperada | e1 [es [es [== [er] 


Se X seguir o modelo proposto, essas duas tabelas não devem ser muito 
discrepantes. O teste de aderência cria, então, o critério, pará decidir se podemos 
aceitar ou não o modelo indicado. Em outras palavras, decidimok se os dados 
amostrais aderem ao modelo ou não. As hipóteses do teste são: 


Ho: X segue o modelo proposto; 
Ho: X não segue esse modelo. 


A quantidade que usaremos para tomar nossa decisão será baseada na 
diferença entre os valores esperados sob H, e aqueles observados na amostra, 


Podemos dizer que a diferença o; — e; dá uma idéia da compatibilidade entre os. 


valores observados e o modelo proposto. Assim, se as diferenças forem muito 
grandes, é razoável admitir que o modelo não deve ser adequado. Por outro lado, 
pequenas diferenças podem ser aceitas, pois estamos sempre sujeitos a flutuações, 
quando trabalhamos com variáveis aleatórias. Baseando-se nessa idéia intuitiva, q 
quantidade utilizada no teste será: 


i=1 


sendo que k representa o número de categorias, o; a freqüência observada e e; à 
fregiiência esperada para a categoria i. 

Para interpretar a expressão de Q2, note que o termo o; — e; indica q 
diferença, na categoria 1, entre a fregiiência observada e a esperada ou, em outras 
palavras, o desvio em relação ao modelo proposto. Se, simplesmente, fizéssemos 
a soma desses desvios para todas as categorias, obteríamos zero, pois o total de 
dados é o mesmo. Para evitar isso, tomamos o quadrado dos desvios. Entretanto, 
por serem quantidades não negativas, sua soma poderia se tornar artificialmente 
alta e, por essa razão, é conveniente fazermos uma mudança de escala dividindo 
esses desvios ao quadrado pela fregiiência esperada. Somando agora, para todas 
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as categorias, obtemos a expressão de Q? que é, assim, uma medida da 


discrepância que queremos quantificar. 

É possível demonstrar que, para um tamanho de amostra suficientemente 
grande, a distribuição de Q? pode ser aproximada por um modelo Qui-Quadrado 
com parâmetro k — 1, denominado de número de graus de liberdade da 
distribuição. Essa distribuição é representada por A 1 O modelo Qui-Quadrado 
é contínuo e assume valores não negativos. Sua densidade tem uma expressão 
complexa de forma que probabilidades serão obtidas da tabela apresentada no 
Apêndice. A aproximação para o modelo Qui-Quadrado será melhor, se todas as 
fregiiências esperadas forem ao menos iguais a 5. Se isto não acontecer para 
alguma categoria, devemos combiná-la a uma outra de forma conveniente, 
garantindo que todas as fregiiências esperadas atendam a esse critério. 
Retomamos agora o Exemplo 8.2, construindo formalmente o teste de aderência. 


ixemplo 8.9: No Exemplo 8.2, definimos X como sendo o número de impactos 

anteriores à falha em um equipamento eletrônico. Uma amostra de 80 ensaios foi 
obtida, cada ensaio representando os testes feitos até a interrupção por falha no 
equipamento, resultando 80 observações da variável de interesse. Pretende-se 
verificar se o modelo Geométrico com p = 0,4 é adequado. O teste será: 


Ho: X ~ G(0,4); 
H,: X tem outra distribuição. 


A decisão será baseada no comportamento de Q?, definido acima. Considerando o 
tamanho de amostra grande, a distribuição de Q? pode ser aproximada pela Qui- 
Quadrado, com número de graus de liberdade que depende de quantas categorias 
serão estabelecidas. A região crítica é constituída de valores grandes de Q?, isto é 


RC =(w:w> q), 
com q, sendo determinado pelo nível de significância do teste, ou seja, 
= P(Q? > qe | Ho verdadeiro). 


Para determinar o valor observado de Q?, denotado por q2,,, precisamos 
obter as fregiiências esperadas. Se H, for verdadeiro, X segue o modelo 
Geométrico, isto é, P(X = k) = pp = 0,4 x 0,6”. Logo, 

Freq. esperada de resistência a k impactos = 80 x pp = 80 x 0,4 x 0,6". 
Na tabela, a seguir, apresentamos as frequências esperadas e os valores que foram 
observados no teste de resistência realizado. 
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mcos [OI [2 [3/4 rsen 
32,0 [19,2 [1,5[69[41[ 65 | 


Como a categoria correspondente ao valor 4 tem-fregiiência esperada 
igual a 4,1 que é menor que 5, agregamos as duas últimas categorias formando a 
dos maiores de 3, a qual terá a frequência observada de 9 e. esperada de 10,4. 
Então, 


>  (30-3202 (26 — 19,2)? (9 — 10,4)? 
S = mA ma "+ 


Escolhendo a = 0,05; vamos determinar q, utilizando a 
Quadrado, com 4 graus de liberdade. Temos, 


P(Q? 2 qe | Ho) = a > P( Q? > qe | Ho) = 0,05. 


Consultando a tabela na linha correspondente a 4 graus de liberdade e na coluna ` 


de 5%, o valor crítico será qe = 9,49 que é maior que o valor observado de 3,44, 
Concluímos pela aceitação do modelo proposto. A próxima figura apresenta a 
densidade do modelo AX; com a região crítica do teste. m 


f(x) 


2 
dobs = 3,44 9,49 


Figura 8.11: Densidade X? e Região Crítica. 
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Uma situação bastante comum é aquela em que desejamos testar se uma 
variável segue um certo modelo, mas desconhecemos. um ou mais parâmetros da 
distribuição. Sendo assim, vamos utilizar a amostra para chegarmos às estimativas 
dos parâmetros desconhecidos, isto é, utilizando as próprias observações que 
dispomos, vamos obter estimativas que serão consideradas como valores dos 
parâmetros desconhecidos. Nesses casos, o número de graus de liberdade se altera 
para k—1-—e, com e representando o número de parâmetros que foram estimados, 
No próximo exemplo, ilustramos essa situação ao testar a aderência de um 
conjunto de observações a um modelo contínuo. 


Exemplo 8.10: Deseja-se verificar a afirmação de que a porcentagem de cinzas 
contidas em carvão, produzido por uma certa empresa, segue a distribuição 
Normal. Os dados, apresentados a seguir, representam a quantidade percentual de 
cinzas encontradas em 250 amostras de carvão analisadas em laboratório. 


Cinzas (em %) | freq. observada 

9,5 10,5 m 
A pç 

10,515 a gs 

mses | w6 | 


16 
42 


18519,5 


Qual decisão devemos tomar ao nível de significância de 4%? 
Como desconhecemos a média e a variância da Normal que será testada, 
precisamos, inicialmente, obter suas estimativas a partir da amostra. Os melhores 


; estimadores desses parâmetros são a média e a variância amostral, representados 
| por X e SZ, respectivamente. Para calcularmos suas estimativas, tomamos o ponto 


médio do intervalo como representante dos valores da respectiva classe. Então, 
temos 


H= T obs = 14,5; 


a2 — a = 
O =S SR. 


Denominando por C a variável aleatória: porcentagem de cinzas contidas no 
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carvão produzido pela empresa, as hipóteses a serem testadas são: 


H, : C ~ N (14,5; 2,7); 
H, : C tem outra distribuição. | 


Como antes, usaremos a estatística Q? para tomar a decisão e, considerando o 
tamanho da amostra grande o suficiente, aproximamos a distribuição de Q? pela 
Qui-Quadrado. Dessa forma, utilizando a = 4%, obteremos a região crítica do 
teste. 

As diversas faixas constituem as categorias de valores da variável C e 
serão numeradas de 1 a 10. De modo a varrer os Valore do intervalo (—o0, 00), 
correspondentes ao modelo Normal, acrescentamos às icategorias 1 e 10 os 
valores, respectivamente, menores que 9,5 e maiores que 195. Dessa forma, para 
calcular as fregiiências esperadas, procedemos da seguinte forma: 


- e} = 250 x P(C < 10,5 | H, verdadeiro); 
ei = 250 x P(C € categoria i | H, verdadeiro), i = 2,...,9; 
e10 = 250 x P(C > 18,5 | Ho verdadeiro). 


As probabilidades acima são calculadas da maneira usual através da 
tabela da Normal padrão. Por exemplo, l 


C — 14,5 _ 10,5 -— 14,5 
P(C < 10,5 | H, verdadeiro) = Ma < “BT 


= P(Z < —2,44) 
= 0,0073. 
Para a categoria 5, 
P(13,5 < C < 14,5|Ħo) = E É C F neui 
= P(—0,61 < Z < 0) 
= 0,2291. 


As freqiências esperadas são apresentadas na tabela, a seguir, e devem 
somar 250, o que foi considerado nos arredondamentos efetuados. 
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| 


97,28 


Observamos que as categorias 1 e 10 devem ser anexadas a outras, pois suas 
fregiiências esperadas são menores que 5. Desse modo, agrupamos as categorias | 
com 2 e 9 com 10. As novas categorias e suas respectivas frequências esperadas e 
observadas são apresentadas na tabela a seguir. 


Di pos | To. 
[2 [1940 [6 
DS | as | a 
EEE 
2 
3 


1 

2 

3 
1 [| sa o ooo 
DO [99 [3 
[DE [8% [10 
Hfetuando o cálculo da estatística Q?, obtemos q2,, = 6,57. Para determinar a 
região crítica, utilizamos a distribuição Qui-Quadrado com 8 — 1 — 2 = 5 graus 
de liberdade, em que perdemos dois graus de liberdade devido à estimação dos 
parâmetros p e o?. Com o auxílio da tabela da Qui-Quadrado, obtemos 


RC = {w : w > 11,64), 
para œa = 4%. Note que RC não contém q2,, e, portanto, decidimos pela 
aceitação do modelo Normal para a variável aleatória C. m 


Apresentamos, agora, uma forma de testar a independência entre duas 
variáveis. Se dispomos da função de probabilidade conjunta de duas variáveis 
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aleatórias, podemos verificar se, para todos os possíveis valores das variáveis, o 
produto das probabilidades marginais é igual à probabilidade conjunta. 

Na situação mais comum em que não temos informação sobre a 
ocorrência conjunta das variáveis aleatórias, o procedimento usual é coletar uma 
amostra anotando a frequência conjunta da ocorrência dos valores das variáveis. 
Pode-se, então, utilizar um teste de hipóteses conhecido como Teste de 
Independência. Este teste será apresentado através do próximo exemplo. 


Exemplo 8.11: A tabela abaixo contém os resultados obtidos por estudantes do 
ensino médio, em um exame com questões nas disciplinas de física e matemática. 
Deseja-se testar se existe dependência erítre as potas dessas duas disciplinas que, 
para efeito de apresentação na tabela e análise de comportamento, foram 
classificadas nas categorias alta, média e baixa. 


Iremos testar as hipóteses: 


H, : As notas de física e matemática são independentes; 
H, : Elas não são independentes. 


De modo análogo ao que fizemos no teste de aderência, vamos construir uma 
tabela de valores esperados. Para a casela (%, 7), esse valor é: 


Total da linha à x Total da coluna j 
eij = — 
ia Total geral 


Note que os valores esperados são calculados sob a hipótese H, de independência 
e, por essa razão, utilizamos os totais de linha e coluna que representam as 
fregiiências marginais das variáveis. Por exemplo, para a casela (1, 2), temos: 


Total da linha 1 x Total da coluna 2 o 139 x 276 


= 72,66. 
Total geral 528 ne 


€1,2 = 
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A tabela completa de valores esperados é 


Para medir a diferença entre os valores esperados e observados, 
usaremos: 


Q? = y $ (043 — ei)” 
a , 
- €i j 


i=1 j=l 


com r e s representando o número de linhas e de colunas, respectivamente., A 
argumentação para sua utilização é a mesma já apresentada no teste de aderência 
e, para um número grande de observações, a distribuição de Q? se comporta como 
um modelo Qui-Quadrado com (r — 1) x (s — 1) graus de liberdade. A região 
crítica contém valores grandes de Q?, isto é, 


RC = {w:w > qe}, 
com q, sendo determinado pelo nível de significância do teste, ou seja, 
a = P(Q? > qe | Ho verdadeiro). | 


Para «= 0,01 a tabela da Qui-Quadrado com 4 graus de liberdade 
fornece q. = 13,28. Obtemos assim, 


RC = {w : w > 13,28). 


Vamos calcular o valor observado de Q?, 


2 _ (56— 30,80)?  (71— 72,66)? (85— 36,05)? 


= = 145,78. 
Jobs 30,80 72,66 36,05 “s 


Concluímos pela rejeição da hipótese nula, ou seja, as notas de física e 
matemática não são independentes. m 
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Na construção da tabela de valores esperados, caso alguma casela tenha. 


valor menor que 5, será necessário agrupar categorias. Este procedimento visa 
garantir uma melhor aproximação para o uso do modelo Qui-Quadrado para Q?. 
Consideremos agora o chamado Teste de Homogeneidade. Esse teste 


consiste em verificar se uma variável aleatória se comporta de modo similar, ou. 


homogêneo, em várias subpopulações. Apesar da mecânica de realização do teste 
ser semelhante a do Teste de Independência, uma distinção importante se refere à 
forma como as amostras são coletadas. No teste de homogeneidade, fixamos q 
tamanho da amostra em cada uma das subpopulações e, então, selecionamos uma 
amostra de cada uma delas. Na tabela apresentada a seguir, as linhas representam 
as subpopulações e, as colunas, os diferentes valores ou categorias da variável. 


Subpopulações | Valores da variável) otal de linha 
ELE 


Para o cálculo dos valores esperados (supondo homogeneidade entre as 
subpopulações), utilizamos, para a casela (i, j), 


total da coluna j 


eij = nx 
"oc total geral 


O total de linha n; indica o tamanho da amostra da subpopulação i, ao passo que 
o quociente, total da coluna j dividido pelo total geral, representa a proporção de 


ocorrências do valor da variável correspondente à coluna j. Caso haja 
homogeneidade de comportamento da variável, esperamos que essa proporção 


seja a mesma, em todas as subpopulações. No próximo exemplo, apresentamos 


mais detalhes. 


Exemplo 8.12: Estamos interessados em saber se a preferência por certo tipo de 
filme se altera com o estado civil. Selecionamos pessoas em cada uma das 
subpopulações: solteiro, casado, divorciado e viúvo. Os resultados estão na tabela 
a seguir: 
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total 


Na tabela anterior, a última coluna representa o tamanho da amostra 
selecionada em cada subpopulação. Observe que esses valores foram fixados 
antes da coleta ser realizada. As hipóteses a serem testadas são: 


H, : A preferência por certo tipo de filme é igual para qualquer estado civil; 
H; : A preferência muda. 


A proporção dos indivíduos que preferem filmes policiais é 134/400. Se a 
variável Filme for homogênea entre as subpopulações de Estado Civil, devemos 
ter essa mesma preferência por filmes policiais, para qualquer estado civil. Logo, 
o valor esperado de preferência pelo gênero Policial, na subpopulação dos 
solteiros, deve ser 100 x 134/400. Para as outras subpopulações, multiplicamos 
134/400 pelos respectivos valores do tamanho de amostra, que são diferentes 
nesse exemplo. A tabela de fregiências esperadas é apresentada a seguir: 


i 1 ig Á 
Calculamos a quantidade Q? da mesma forma como fizemos anteriormente, isto é, 
vamos quantificar a "distância" entre os valores observados e aqueles esperados, 
se houvesse homogeneidade. Assim, 


Q = pp (on ea 
i=1 j=l eij 


pe 4 ” . x 2 2 Ś 
Para um número grande de observações, a distribuição de Q* é Qui- 
Quadrado com (r — 1) x (s — 1) graus de liberdade (r, número de linhas e s de 
iag A 4 és g a 2 ia A 
colunas). A região crítica contém valores grandes de Qf, isto é, 
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RC = {w: w > qe}, 
com q, sendo determinado pelo nível de significância do teste, ou seja 
a = P(Q? > q. | H, verdadeiro). 


Escolhendo a = 0,05 obtemos, da tabela da densid i 
, š ade - 
com 6 graus de liberdade, q. = 12,59. Portanto, ea 


É 


RC = {w : w > 12,59}. 


Para o valor observado de Q? temos: 


É = (45 — 33,50)? (36 — 46,90)? 
obs 33,50 “4690 — 


Concluímos pela rejeição da hipótese nula, ou seja, a preferência de filmes não é a 
mesma nas diferentes subpopulações definidas pelo estado civil. 0 


Exercícios da Seção 8.5: 
l. Utilizando a tabela da distribuição Qui-Quadrado determine (aproxime se 
necessário): ' 
a. P(X? > 14,70). 
b. P(X2, > 39). 
c. P(X < 9). 
d. P(12 < XE < 30,2). 
e. O valor de a tal que P(X} > a) = 0,05. 
f. O valor de b tal que P(X2 > b) = 0,01. 
g. O valor de c tal que P(X2 < à = 0,95. 
2. Um pediatra pretende avaliar se o sexo de bebês pode ser modelado por uma 
distribuição de Bernoulli, com p= 0,55 indicando a probabilidade de 


nascimento de meninas. Uma amostra aleatória de 25 nascimentos indicou 13 
meninas. 


a. Formule as hipóteses adequadas. 
b. Qual é a conclusão ao nível de significância de 5%? 
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3. Quatro máquinas de grande porte trabalham de forma independente e, ao fim da 


jornada de trabalho, são vistoriadas pelo controle de qualidade. Caso 
necessitem, serão ajustadas. Das informações arquivadas pela empresa, 
sorteamos 22 dias e anotamos o número de máquinas que sofreram ajuste 
nesses dias. Os dados são apresentados na tabela abaixo. O engenheiro de 
manutenção pretende verificar se é adequado o modelo Binomial com n = 4 e 
probabilidade de ajuste p = 0,1. Use um nível de significância de 4%. 


[Ajustes diários [0 [12 [3 [4] 
[ Fregiência |13 [6[2[1[0] 


. Para verificar a qualidade do processo de fabricação, cabos de aço são 


submetidos ao ensaio de tração até acontecer a ruptura. Os cabos têm 5 metros 
de comprimento e deseja-se testar se o modelo Uniforme Contínuo é adequado. 
Para 30 cabos, sorteados ao acaso, obtivemos a seguinte tabela: 


Faixa | freqiiência 


Qual é a decisão para uma probabilidade de erro tipo I de 0,029 


. Em um experimento para verificar a relação entre crises de asma e incidência 


de gripe, 150 crianças foram escolhidas, ao acaso, dentre aquelas 
acompanhadas pelo Posto de Saúde do bairro. Os dados referentes a uma 
semana são apresentados na tabela abaixo. 


Sim | Não 


Você acha que as ocorrências de asma e gripe são independentes? Use 


a = 4%. 


. A opinião sobre o atendimento de pacientes com AIDS em hospitais públicos 


foi estudada em duas cidades. Na cidade A, sorteou-se 150 usuários e, em B, 
200. Com os resultados apresentados na tabela abaixo, você diria que a opinião 
é a mesma nas duas cidades”? Use a = 5%. 
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4. O atual tempo de travessia com balsas entre Santos e Guarujá é considerado 
uma variável aleatória com distribuição Normal de média 10 minutos e desvio 

= padrão 3 minutos. Uma nova balsa vai entrar em operação e desconfia-se que 

será mais lenta que as anteriores, isto é, haverá aumento na média especificada 

no modelo acima. 

a. Especifique as hipóteses em discussão. 

b. Interprete os erros tipo I e tipo II. 


7. Em uma faculdade, o desempenho es 
para dois cursos diferentes. Os cursos 
amostras que estão re 
dois cursos têm o mes 


ee dos alunos está sendo estudado 
im nd e administração e economia forneceram 
as abaixo. Você acredita que os alunos desses 


mo desempenho, ao nível 4%? 


Cursos \ Desempenho 
| Economia [| 


8.6 Exercícios 


1. Suponha que queiramos testar H, : H 
média de uma variável aleatória No 
Extraída uma amostra de n = 


Tobs = 53. Faça o teste utilizando 


= 50 versus H, : 4 > 50, onde u é a 
rmal com desvio-padrão igual a 10. 


36 elementos da a 
huge população, ob E 
os níveis 1%, 2%, 5% e 10 E ecos 


i o é maior e resolv i ã 
tal, analisa 35 automóveis dessa Pd pigs meg 


j marca, obtend E 

litros “A . >, o como consumo 

mol 5 100 quilômetros. Considerando que o consumo rah ea qd 

Leis , O que a revista pode concluir sobre o anúncio da fábri ma elo 
6? Qual o erro tipo II se a média for 10.6? rica ao nível de 


3. Uma máquina deve produzir peças com diâmetro d 
acontecem e vamos assumir que o diâmetro d 
Normal com variância igual a 0,09 cm?. Para t 
regulada, uma amostra de 100 peças é coletada i 
a. Formule o problema como un teste de hipóteses 
b. Qual seria a região crítica se = 0,02? l 


c. Se a região de aceitação fosse tzeR|1,95<r<92 05) ot | 
JO < T£ < 2,05}, seria o 


d. Se para essa amostra, T 


e 2 cm. Entretanto, variações 
essas peças siga o modelo 
star se a máquina está bem 


obs = 1,94; qual a decisão em (b)? E em (c)? 


c. Para uma amostra de 20 tempos de travessia com a nova balsa, obtenha à 
região crítica considerando um nível de 5%. 

d. Calcule a probabilidade do erro tipo II, se a nova balsa demora, em média, 2 
minutos a mais que as anteriores para completar a travessia. 


O nível de colesterol no sangue é uma variável com distribuição Normal, de 


média u desconhecida e desvio-padrão o = 60 mg/100 ml. 

a. Suponha que várias amostras de tamanho n são escolhidas ao acaso desta 
população. Para cada indivíduo, o nível de colesterol é obtido e a média de 
cada uma das amostras é calculada. Qual deve ser o valor de n para que 
apenas 10% das médias amostrais excedam a média populacional em 10 
unidades ou mais? 

b. Teste a hipótese de que ju = 260, contra a alternativa de que ju > 260 com 
base numa amostra de 50 pacientes, em que se observou uma média 
amostral Tops = 268. Utilize um nível de 59%. 

c. Qual deve ser o tamanho da amostra, escolhida na população acima, para que 
o intervalo de confiança para p tenha um comprimento de 30 unidades? Use 
y = 99%. 

d. Para o teste especificado em (b), calcule a probabilidade B para o erro de 
tipo II, se o valor real de u for igual a 290. 


Suponhamos que o tempo de cura para um doente tratado pelo método A 

obedeça a uma distribuição Normal, com média de 7 dias e desvio-padrão de 2 

dias. Um novo tratamento B é proposto com a finalidade de diminuir o tempo 

de cura desse tipo de paciente. Em um experimento clínico, 25 pacientes com à 

doença receberam o novo tratamento B e observou-se que a média do tempo de 

restabelecimento para eles foi de 6 dias. . 

a. Sabendo que o novo tratamento não influi na variância, identifique as 
hipóteses adequadas e teste-as, considerando um nível de significância 
a = 0,02. 

b. Construa um intervalo de confiança (y = 95%) para a verdadeira média da 
distribuição do tempo de cura sob o tratamento B. 
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7. Uma empresa fabrica cilindros com 50 mm de diâmetro. O desvio-padrão dos 


9 


diâmetros produzidos é de 3,0 mm. A fim de saber se a produção encontra-se 

dentro dos padrões esperados, a cada hora, 4 cilindros são amostrados e têm 

seus diâmetros medidos. A média dos diâmetros é usada para decidir se o 

processo de fabricação está operando satisfatoriamente. Assim, se o diâmetro 

médio estiver entre 47 e 53 mm, o processo deve continuar, caso contrário, a 

produção é interrompida e ajustes são feitos. Suponha que o comprimento dos 

diâmetros é bem modelado por uma distribuição Normal. 

a. Qual é a probabilidade de se parar incorretamente a produção, se a média do 
diâmetro continuar em 50 mm? 

b. Qual é a probabilidade da produção continuar, se a média do diâmetro se 
deslocar para u = 529 


Sabe-se que a concentração média de cloro encontrada na urina de recém- 

nascidos, com gestação de 9 meses, é igual a 210 unidades e que o desvio- 

padrão correspondente é igual a 20 unidades. Sabe-se também que, em recém- 

nascidos prematuros, a concentração de cloro na urina tem um desvio-padrão 

igual àquele observado para os outros recém-nascidos, porém suspeita-se que a 

concentração média seja menor. Para testar a veracidade desta suspeita, uma 

amostra de recém-nascidos prematuros será observada com relação às 

concentrações de cloro na urina (admita que siga o modelo Normal). 

a. Formule as hipóteses adequadas. 

b. Quantos recém-nascidos prematuros devem ser observados para que 
tenhamos simultaneamente a= 10% e f(200)= 5%. 

c. Obtenha o nível descritivo do teste, se a concentração média de cloro 
observada na urina de uma amostra de 25 prematuros foi de 200 unidades. 
Interprete. 


Um laboratório que fabrica comprimidos analgésicos anuncia que seu remédio 
contra dor de cabeça leva em média 14 min para aliviar a dor, com desvio- 
padrão de 5 min. Um médico sustenta que o tempo é maior e seleciona 
aleatoriamente 40 pacientes. Pede a eles que tomem tais pílulas quando 
tiverem dor de cabeça, anotando o tempo (em minutos) até o alivio da dor. 
Após coletar todas as respostas, ele verifica que o tempo médio de alivio para 
esses pacientes foi de 19 min. Estes resultados confirmam a afirmação feita 
pelo laboratório? Faça as suposições necessárias e use a = 5%. 


10. Considere o teste p= 0,6 contra p 0,6. Sendo n = 100, indique a 


probabilidade de erro tipo I para as seguintes regiões críticas: 
aRC=(zEeR|zx<o0,560u x > 0,64). 
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bRC=(zER|2<0,540u x > 0,66}. 


11. Uma empresa não pode produzir mais que 5% de unidades defeituosas de um 


artigo num mesmo lote. Seja p a proporção de unidades defeituosas em um 

certo lote e suponha que, nesse lote, 100 artigos são sorteados para serem 

inspecionados. Responda as seguintes questões: 

a. Qual o parâmetro que se deseja testar? 

b. Qual é o estimador a ser utilizado e sua distribuição? 

c. Indique as hipóteses a serem testadas e interprete-as. 

d. Determine o critério de decisão com nível de significância de 5%. 

e. Com o critério obtido, calcule a probabilidade de aceitar um lote com 7% de 
defeituosos. 

f. Se forem observadas 10 unidades defeituosas, qual é o nível descritivo? 


12. Uma urna contém bolas vermelhas e azuis. Para verificar a hipótese de iguais 


proporções dessas cores, extraem-se com reposição, 64 dessas bolas e decide- 

se aceitar a hipótese acima, se o número de bolas vermelhas retiradas estiver 

entre 28 e 36. 

a. Determine a probabilidade de rejeitar a hipótese, quando ela é realmente 
correta. 

b. Qual é a probabilidade do erro tipo II, se a verdadeira proporção de bolas 
vermelhas é 0,6? 

c. Quanto vale a função poder, se a proporção de bolas vermelhas é 0,4? 


13. A experiência mostra que a taxa de complicações, associada a um 


determinado procedimento cirúrgico, é de 0,20. Com o objetivo de reduzir essa 

taxa, um pesquisador desenvolveu um novo procedimento e o aplicou a uma 

amostra de pacientes. 

a. Se ele usar a nova técnica em 100 pacientes, qual deveria ser a taxa limite 
para que conclua que a nova técnica é melhor que a anterior? Fixe o nível 
de significância em 0,05. . 

b. Se a verdadeira taxa de complicações associada à nova técnica for 0,08; qual 
é a probabilidade de que, em uma amostra de tamanho 100, ele não consiga 
rejeitar a hipótese nula? 

c. Suponha que o pesquisador mantenha a = 0,05 e deseje £o, = 0,05. Qual 
deve ser o tamanho da amostra para que isso aconteça? 


14. Entre milhares de casos de pneumonia não tratados com sulfa, a porcentagem 


que desenvolveu complicações foi de 10%. Com o intuito de saber se o 
emprego das sulfas diminuiria essa porcentagem, 120 casos de pneumonia 
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foram tratados com sulfapiridina e destes, 6 apresentaram complicações. 
Admitindo que os pacientes são comparáveis em tudo, exceto quanto ao 
tratamento, teste a hipótese de que a proporção de casos com complicações 
entre os pacientes tratados com sulfa é significativamente menor do que os não 
tratados. Calcule o nível descritivo e tome a decisão considerando a = 0,05. 


15. Uma caixa tem bolas pretas e brancas. Existem 3 de uma cor e 2 de outra, mas 
não se sabe ao certo qual a cor predominante. Retiramos, ao acaso e com 

reposição, 50 bolas da urna e observamos 28 bolas brancas. Seja p a proporção 

de bolas brancas na caixa, pergunta-se: / 

a. Qual seria o teste adequado para decidir sobre a composição da caixa? 

b. Qual conclusão, ao nível œ = 10% ? 

c. Determine a probabilidade do erro tipo II. 


16. Um milionário dá uma grande festa e resolve fazer uma brincadeira com seus 

convidados (que a essa altura já estavam bem animados...) Dentre os 

presentes, tidos como bons degustadores de vinho, sorteia 30 pessoas e oferece 

a cada uma dois copos de champanhe, numerados 1 e 2, e solicita que 

indiquem qual deles tem champanhe importada (é obrigatório escolher um 

único copo). Na verdade, os dois copos contém a mesma champanhe nacional! 

Deseja-se decidir se o "grupo" ainda é um bom provador de champanhe. 

a. Indique como formular as hipóteses nula e alternativa para esse problema. 

b. Que decisão você tomaria, ao nível de significância a = 0,08 se 23 pessoas 
escolhessem o copo número 1? 

c. E se 24 pessoas escolhessem o copo 2? 


17. Um comerciante compra frutas para revenda e seu preço prevê no máximo 5% 
de frutas estragadas para que ele consiga algum lucro. Como não tem recursos 
para contratar um estatístico, ele adota a seguinte regra prática: toma, de cada 
lote, 30 frutas ao acaso. Se 3 ou mais estiverem estragadas, o lote é devolvido; 
caso contrário é aceito. 

a. Qual a probabilidade do erro tipo I, no teste adotado pelo comerciante? 

b. Esboce a função de poder do teste. Comente o teste do comerciante. 


18. Um dado é lançado 216 vezes e o número de vezes que ocorreu a face 6 é 
contado. Decide-se aceitar a hipótese de que o dado é honesto, se o número de 

ocorrências estiver entre 31 e 41. i 

a. Formule as hipóteses nula e alternativa e indique a forma da região crítica. 

b. Qual é a probabilidade do erro tipo I? 

c. Qual seria a região crítica do teste ao nível 2% de significância? 
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19. Suponha que se deseje estimar a proporção p de indivíduos com certa moléstia 


em uma dada região. Selecionou-se uma amostra aleatória de 100 pessoas e 
constatou-se que 25 eram portadoras da moléstia. 
imati rção p. | 
a. Calcule a estimativa pontual da propo = Ea 
b. Construa um intervalo de confiança para p com coeficiente de confiançk 
i i lo? 

= 0,95. Qual o comprimento do interva i | aé 

c Um pesquisador acredita que a proporção de doentes é superior a aa om t 
essa hipótese ao nível œ = 0,05. Formule as hipóteses nula e alternativa. 


indústri indi no de 
20. Testes exaustivos realizados pela indústria Cookbem indicam que seu forno 


00 horas 
microondas tem probabilidade 0,1 de ipi a la. Sesi efeneto feia 
> dução está sendo implantado e ! 
de uso. Um novo método de pro í marea bpm IA 
ili ima i a deve diminuir. Com vistas 
robabilidade acima indicad i 
lar een ai iamente 100 aparelhos para 
ifi i ã olheu-se aleatoriame 
verificar essa afirmação, esc ale: mord e 
realizar testes acelerados e os resultados indicaram que 8 deles tivera a 
falha antes de 900 horas. 
a. Formule as hipóteses adequadas. 
b. Determine o nível descritivo. º fr di 
c. Verifique se os engenheiros têm razão, considerando um ní 


significância a = 69%. 


21. Uma amostra de 10 adultos, na faixa de idade de 19 a 25 anos, apresentou uma 


i i io-padrão de 8,67 
freqüência cardíaca média de 68,7 batidas/min, com desvio pa A di 
batidas/min. Um manual de procedimento clínico indica que : pu P raça 
i i i n mit 
indiví i á igual a 72 batidas/min. 
nessa faixa etária deve ser maai 
e ee d um modelo Normal e 
iá i orte de acordo com 
ue a variável medida se comp i m ER Taaa 
mi um nível de significância igual a a = 4%, você o o pe pe 
fornecidos são compatíveis com a informação do manua o 
i ra? 
descritivo correspondente aos resultados fornecidos pela amos 


: i iá ormal 
22. A resistência à ruptura em cabos de aço é considerada uma variável Norm 


ra de 12 
com média e variância dependendo de outros fatores. Uma e aaen ba 
cabos produzidos por uma empresa são levados a teste para in po geo 
podem ser usados na construção de uma ponte. À go pm ess 

i édi mínimo 2 g. Indiq si 
recisa ter carga média de ruptura de no m ir 
Aa se pode ran baseado no nível descritivo, se os seguintes p f e a 
observados na amostra: 2518, 2492, 2450, 2535, 2547, 2486, ; i 


2522, 2505, 2469 e 2440. 
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23. O crescimento de bebês, durante o primeiro mês de vida, pode ser modelado 
pela distribuição Normal. Admita que, em média, um crescimento de 5 
centímetros ou mais seja considerado satisfatório. Deseja-se verificar se o 
crescimento de bebês de famílias em um bairro da periferia de São Paulo 
acompanha o padrão esperado. Para tanto, 10 recém-nascidos na região foram 
sorteados e sua altura acompanhada, fornecendo as seguintes medidas de 
crescimento em centímetros: 5,03; 5,02; 4,95; 4,96; 5,01; 4,97; 4,90; 4,91; 4,90 
e 4,93. 

a. Que hipóteses estão sendo testadas? | 

b. Qual é o estimador a ser utilizado para testar as hipóteses em (a) e qual é a 
sua distribuição? 

c. Se a região crítica construída é {t € R : t 
Qual a conclusão? 

d. Qual seria a região crítica e a conclusão se a = 5%? 


87), encontre o valor de a. 


24. A porcentagem anual média da receita municipal empregada em saneamento 
básico em pequenos municípios de um estado tem sido 8% (admita que esse 
índice se comporte segundo um modelo Normal). O governo pretende 
melhorar esse índice e, para isso, ofereceu alguns incentivos. Para verificar a 
eficácia dessa atitude, sorteou 10 cidades e observou as porcentagens 
investidas no último ano. Os resultados foram (em porcentagem) 8, 10, 9, 11, 
8, 12, 16,9, 11 e 12. Os dados trazem evidência de melhoria, ao nível de 2%? 
Caso altere a média, dê um intervalo de confiança para a nova média. 


25. Alguns cientistas acreditam que em média 50% dos materiais expelidos por 
erupções vulcânicas são constituídos de enxofre. Seja X a massa de enxofre 
contida a cada 2 quilos de material vulcânico. Acredita-se que essa variável 


não tem distribuição Normal. Uma amostra de 100 caixas de 2 quilos desse 
100 100 

material forneceu 57x; = 98 (em kg) e > 2? = 100 (em kg?). 
i=1 i=1 


a. Qual a distribuição de X? Indique as suposições feitas. 

b. Formule as hipóteses e obtenha a região crítica para a = 5%. 

c. Qual a conclusão do teste? 

d. Qual é a probabilidade do erro tipo II, se os vulcões expelem 52% de 
enxofre? 


26. Deseja-se verificar se o modelo Uniforme Discreto com valores de 0 a 5 pode 
ser usado para modelar o número de reclamações que chegam por hora a uma 
Central de Atendimento ao Consumidor. O sorteio de 120 períodos de uma 
hora forneceu os seguintes dados: 
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[Reclamações [0/1 [2 [3 [475] 
[ Fregiência [8 |32 |28 |24| 16 [17 


Formule as hipóteses testadas e dê a conclusão ao nível de 5% de significância. 


27. Uma indústria registra, em cada semana, o número de dias em que ameen 
acidentes de trabalho. Para uma amostra de 200 semanas, verifique se os ary 
apresentados a seguir, aderem ao modelo Binomial com parâmetros n = > e 
p = 0,2 (use nível de significância de 10%). 


> . 4 
[ No, de dias comacidenes [0 | 1 [2 [377] 
[O Fregina [oa[50[40[2[8]5] 


28. O número de chegadas de clientes a um banco foi anotado minuto G minuta 
para uma amostra de 70 períodos (de um minuto). Os dados foram: os 


seguintes: 


is de 6 
[ No. hegadas [0| 1] 2 [3 Jaso [masas] 
[ Fregiência [96 rua r a 2. 


O modelo de Poisson foi proposto para modelar essas chegadas, qual a sua 
opinião? 

29. O tempo residual do efeito de um agrotóxico está sendo analisado. pn 
anteriores, com produtos similares, indicam que o modelo epa em 
média de 3 dias poderia ser adequado. Qual a conclusão, ao nível 5%, eo 
análise em laboratório de uma amostra de 300 aplicações do agrotóxico 
forneceu os seguintes tempos residuais: 


i 5) | 15,6) 
Faixas de Tempo | [0,1) | [1,2) | [2,3) | [3,4) | [4, 
Frequência [0 [0 [8/0 /5/2] 


30. O preço unitário de mudas de laranjeira (em reais), em cap r| 
especializados, é uma variável aleatória que se pretende modelar pe a roca 
Com base nos dados apresentados na tabela a seguir, teste a hipótese de que 
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modelo Normal é adequado a esse caso, considerando um nível de 


significância de 5%. 
Faixas de Preço 
[0,50; 0,60) 
0,00: 0,65) 
(0,650.70) 
,70; 0, 


31. Usando os dados abaixo, verifique descritivaménte se existe dependência 
entre o número de filhos e o rendimento familiar (¢m reais). Em seguida, teste 
tal fato considerando um nível de significância de 1%. (Não esqueça de 
formular as hipóteses). 


Renda Fiho [0 [1 [2/57] 
[20005000 [25 [3 [12[ 8 
[5000oumais | 8 [13 [9 [10] 


32. Em uma escola de ensino médio, o desempenho dos alunos em matemática e 
física foi observado (ver tabela a seguir) para testar se existe dependência entre 
as duas disciplinas. 


2 
58 
40 


Calcule o nível descritivo. Qual a decisão, ao nível de significância 2% ? 


Notas Baixas 


33. Acredita-se que o empenho de estudantes universitários muda no decorrer do 
curso. Para investigar essa afirmação, decidiu-se estudar a relação entre ano de 
curso e aprovação em disciplinas. Os pesquisadores obtiveram os registros de 
186 estudantes universitários, selecionados aleatoriamente, dentre a totalidade 
de alunos de uma certa instituição de ensino superior. Foram consideradas 3 
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disciplinas básicas em cada ano. Os resultados obtidos foram resumidos e são 
apresentados na tabela a seguir. 


a. Quantifique o grau de associação entre aprovação e ano cursado. 

b. Teste a hipótese de que as duas variáveis são independentes, ao nível de 
significância de 5%. 

c. Obtenha o nível descritivo. 


34. Quatro grupos de pacientes com úlcera duodenal foram submetidos a 
diferentes cirurgias caracterizadas pela porcentagem de tecido gástrico 
removido. A tabela apresentada a seguir contém dados referentes à 
classificação dos pacientes quanto à severidade de uma seqüela indesejável da 
cirurgia. 


Verificar se existe associação entre a porcentagem de tecido gástrico removido 
e a severidade da sequela. Utilize o nível descritivo. 


35. Investiga-se, para um certo produto, a fidelidade (alta, média e baixa) de seus 
consumidores. Em uma amostra de 200 homens e 200 mulheres, foram 
classificados como tendo alto grau de fidelidade 120 homens e 80 mulheres, 
enquanto com grau médio, 50 mulheres e 50 homens. Os dados fornecem 
evidências (use a= 2%) de possíveis diferenças de grau de fidelidade entre os 
sexos? Indique o teste realizado. 


36. Um levantamento inicial sugere que o número de filhos depende da renda 
familiar dos pais. Para confirmar essa suspeita, amostras de famílias foram 
coletadas, em cada classe social, e o número de filhos em cada família foi 
contado. Verifique através de um teste de hipóteses se a variável tem 
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comportamento diferente em cada uma das subpopulações estudadas (use nível 


de significância de 1%). 


[Casi Fiho] o [1] 


37. Deseja-se comparar o grau de instrução dos habitantes de quatro cidades 
brasileiras que têm aproximadamente o mesmo tamanho populacional. Uma 
amostra de 100 habitantes foi sorteada em cada cidade e o nível educacional 
das pessoas foi observado. Dos resultados apresentados na tabela abaixo, que 
conclusão podemos tirar, usando o nível descritivo? 


Cidade, Instrução 


e é 


38. A reação ao tratamento por quimioterapia foi estudada em quatro grupos de 
pacientes com câncer. Retirou-se uma amostra de pacientes de cada grupo € 
classificou-se a reação em três categorias: pouca, média e alta. Teste, ao nível 
de 2%, se todos os tipos de câncer reagem da mesma maneira. 


| Tpol [5 | 33 [16 [| 10. 
[Troll [58 [59 [5] 

120 
mov | s [ 88 [ io | 5) 


39. Um índice sobre qualidade de vida foi observado em uma amostra de 400 
idosos. Os dados são apresentados a seguir. 


Faixas | 50,55) | 5,63) 
55 | 5 
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a. Teste se a média do índice é ou não igual a 50. 
b. Com base no item (a), verifique se o modelo Normal é adequado para este 
índice. Como ficaria sua resposta sem utilizar a informação do item (a)? 


40. As tabelas a seguir contêm o número de pessoas segundo origem e opinião a 
respeito do aborto. 


Masculino Feminino 


Contra 

[mico [ 8 | 9 | 

a. Para cada sexo, verifique se origem e opinião são independentes. 

b. Combine as informações em uma única tabela desconsiderando sexo e teste 
novamente a independência das variáveis. 

c. Discuta os resultados obtidos em (a) e (b). 


41. (Use o computador) Considerando os dados do arquivo cancer.txt descrito no 
Exercício 24 do Capítulo 1, defina dois grupos: um de pacientes jovens, com 
idades inferiores a 54 anos, e um de pacientes idosos, com idades superiores a 
54 anos. Os grupos deverão conter 191 e 171 pacientes. Considere a variável 
nitrogênio na uréia (N). l 
a. Construa um box-plot para a variável N, para cada um dos grüpos etários e 

compare-os descritivamente. Com base nos gráficos, existem indicações de 
que a idade está influenciando a concentração de nitrogênio na uréia? 

b. É de interesse verificar se a média populacional da variável N para os 
pacientes idosos é superior a 15. Supondo que o modelo Normal com desvio 
padrão o = 7 é adequado, qual a conclusão que pode ser tirada, para um 
nível de significância a = 0,001? 

c. Considerando agora o grupo de pacientes mais jovens, verifique se a média 
populacional para N é menor que 15. Suponha que o desvio padrão 
populacional é conhecido igual a 5 e que o modelo Normal é adequado. 
Obtenha o nível descritivo. 

d. Com base nos resultados dos itens (b) e (c), discuta o comportamento das 
médias da variável N para os dois grupos de pacientes. 


42. (Use o computador) Suponha que os dados do arquivo areas.txt (ver descrição 
no Exercício 25, Capítulo 1) corresponde a uma amostra de vários 
empreendimentos de uma mesma empreiteira. Segundo o memorial descritivo 
do empreendimento, as unidades devem ter área total igual a 50 m?, 
independentemente do bloco. Entretanto, suspeita-se que as unidades do bloco 


B não satisfazem a essa especificação. 
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a. Para cada bloco, construa um histograma para as áreas de cada um dos 
cômodos das unidades. Compare os gráficos. Para cada cômodo, discuta se 
existe diferença entre os tamanhos para unidades do bloco A quando 
comparadas com unidades do bloco B? 

b. Teste a hipótese de que os apartamentos dos edifícios construídos 
satisfazem, em média, ao memorial descritivo que especifica que a área da 
sala deve ter no mínimo 28 m°. Use a = 0,05. 

c. Construa uma nova variável com a informação da área total (isto é, obtenha 
uma variável que é a soma das áreas de cada cômodo) e faça histogramas 
considerando cada bloco. O modelo Normal lhe parece adequado para 
descrever o comportamento dessa nova variável? 

d. Verifique se, em média, a área total para as unidades do bloco A são 
inferiores ao valor estipulado. Use a = 0,03 e assuma que o modelo 
Normal é adequado. 

e. Repita o item (d) para as unidades do bloco B 

f. Baseado nos resultados obtidos nos itens tanteriores, você diria que a 

empreiteira está, de fato, desrespeitando a metragem estipulada? 


43. (Use o computador) Considerando os dados do Exercício 40, suponha que 
alguns proprietários de unidades, vendidas pela empreiteira, estão movendo 
uma ação judicial. Eles alegam que a proporção de apartamentos apresentando 
rachaduras está exageradamente alta, superando 30% das unidades. 

a. Utilizando a variável Rachadura, discuta quais modelos probabilísticos 
poderiam ser utilizados para descrevê-la. 

b. Verifique se a proporção de apartamentos apresentando rachaduras está, de 
fato, muito alta. Utilize um nível de significância de 2%. 


44. (Use o computador) Considere os dados do arquivo aeusp.txt (Exercício 26, 
Capítulo 1) que corresponde a uma amostra da população de baixa renda da 
região do Butantã-SP. 

a. Teste se o número médio de residentes em casas da população acima 
mencionada é inferior a 4. Indique as suposições adicionais necessárias. 

b. Verifique estatisticamente se a proporção de trabalhadores com carteira 
assinada, nessa população, é inferior a 40%. Use a = 5%. 


45. (Use o computador) Continuando com os dados do arquivo aeusp.ixt (ver 
descrição no Exercício 26, Capítulo 1), teste a independência entre as variáveis 
Comun e Renda. Tome sua decisão calculando o nível descritivo. 


Capítulo 9 


Tópicos Especiais 


9.1 Introdução 


Neste capítulo, desenvolveremos alguns tópicos complementares que têm 
grande utilidade no trabalho cotidiano de profissionais e pesquisadores que fazem 
uso de métodos quantitativos. Boa parte da teoria necessária ao desenvolvimento 
das técnicas a serem apresentadas já foi discutida nos capítulos precedentes. 
Alguns dos tópicos podem ser elaborados em maiores detalhes e generalidade, 
entretanto, esta abordagem está além dos objetivos deste texto e demandaria 
capítulos específicos. Dessa forma, para esses casos apresentaremos uma versão 
mais simples a título de introdução ao tema. Para um aprofundamento maior, 
recomendamos consultar a bibliografia apresentada ao final do livro. 

Num primeiro momento, consideraremos a comparação de duas médias 
populacionais. Em seguida, apresentaremos alguns procedimentos destinados ao 
estudo da variância populacional, incluindo aí a comparação de variâncias de duas 


` populações. Uma generalização do método de comparação de médias, envolvendo 


mais que duas populações, é considerada no tópico seguinte. O desenvolvimento é 
baseado no conceito de modelo estatístico, que consiste em decompor o valor de 
cada observação em uma parte com estrutura conhecida e uma parte residual, com 
informações que não são explicadas pela mencionada estrutura. Quando o modelo 
estatístico é expresso em termos da equação de uma reta, podemos definir um 
modelo de regressão linear simples, que será discutido na última seção. 


9.2 Comparação de Duas Médias 


Considere que estamos interessados em comparar duas populações com 
relação às suas médias. Uma das principais suposições feita no desenvolvimento 
dos testes de hipóteses, apresentados anteriormente, foi a de independência entre 
os componentes da amostra. Ao tratarmos da comparação de parâmetros de duas 
populações, precisamos verificar se estas estão ou não relacionadas. Se estiverem 
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relacionadas, pode ocorrer dependência entre elementos de amostras diferentes, 
ainda que cada amostra, internamente, seja composta por elementos 
independentes. Por exemplo, é muito comum a situação em que observações são 
tomadas em uma mesma unidade amostral, antes e depois de alguma intervenção. 
Neste caso é razoável considerarmos que a repetição de mensurações em um 
mesmo elemento cause dependência entre as duas amostras. Veremos, nos 
próximos exemplos, alguns casos Com e sem a presença de independência. 


Exemplo 9.1: Uma distribuidora de combustíveis deseja verificar se um novo tipo 
de gasolina é eficaz na revitalização de motores velhos. Com esse objetivo, 
seleciona 12 automóveis de um mesmo modeloicom mais de 8 anos de uso e, após 
regulagem de seus motores, verifica o consumo de combustível. Em seguida, o 
carro é abastecido com o novo tipo de combustível durante 15 semanas, e uma 
nova aferição do consumo é feita. Defina as variáveis aleatórias X; e Y; como o 
rendimento do automóvel į respectivamente antes e após as 15 semanas. Vemos 
que X; e Y; foram medidas em uma mesma unidade amostral e, assim, é razoável 
assumir que exista alguma dependência entre elas. Ressaltamos que, para i Æ j, 
devemos ter X; e X; independentes. O mesmo deve ocorrer para Y; e Y;. Ao 
medir a característica de interesse em duas ocasiões, para cada uma das unidades 
amostrais, pretende-se diminuir a influência de outros fatores (muitas vezes 
impossíveis de serem controlados) e ressaltar um possível efeito do tipo de 
gasolina no desempenho do veículo. | O 


Exemplo 9.2: Um estudo envolve a avaliação de um novo sistema operacional de 
computador, desenvolvido para crianças com idades entre 8 e 12 anos. Afirma-se 
que o novo sistema é mais rápido do que o atual, líder de mercado. Para testar esta 
afirmação, foram selecionados em uma mesma escola dois. grupos com 15 
crianças cada. As crianças, sem conhecimento prévio relacionado ao uso de 
computadores, utilizaram máquinas de mesma configuração para realizar uma 
certa tarefa, que teve seu tempo anotado. O primeiro grupo, denominado Grupo 
A, trabalhou com o sistema operacional convencional ao passo que o segundo 
grupo, Grupo B, desenvolveu atividades no novo sistema. Ao final do 
experimento todas as 30 crianças haviam realizado a tarefa. Nesse exemplo, os 
dois grupos selecionados consistem de 15 crianças diferentes e, portanto, pode-se 
assumir que os dois grupos constituem duas amostras independentes. 0] 


A independência ou não das observações é um fator importante a ser 
considerado mas, como visto em capítulos anteriores, também é importante 
levarmos em consideração a variabilidade associada aos valores populacionais e 
amostrais. Note que, nos testes de média, utilizamos o valor da variância 
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populacional ou um estimador apropriado. Dessa forma, para procedermos à 
comparação das médias, precisamos analisar o que ocorre com as variâncias nas 
duas populações. Em algumas situações elas são conhecidas por estudos 
anteriores, censos ou ainda suposições. Se as variâncias populacionais são 
desconhecidas, existe ainda a questão delas serem iguais ou diferentes. Alguns 
autores argumentam que, no caso de variabilidades populacionais desiguais, o 
teste de médias não deveria ser realizado pois as populações: já são diferentes. 
Apesar dessas opiniões, iremos apresentar neste capítulo um procedimento para 
esse caso. Resumimos, a seguir, as possíveis situações na comparação de duas 
populações. 


Dependentes 
caso 1) 


2 amostras Anni : 
Variâncias conhecidas 


Fa (caso 2) 


Independentes Variâncias iguais 
Variâncias 


A (caso 3A 
desconhecidas i 


Variâncias diferentes 
(caso 3B) 


Figura 9.1: Casos na comparação de duas amostras. 


Discutiremos apenas os testes conhecidos como paramétricos, para cada 
um dos casos considerados na Figura 9.1. Os testes paramétricos assumem que as 
variáveis se comportam segundo um modelo Normal, ou que as amostras são 
suficientemente grandes, de modo que uma boa aproximação pode ser conseguida 
utilizando o modelo Normal. ' 


Caso 1: Amostras dependentes (teste t - pareado) 


No caso de amostras dependentes, desejamos comparar duas médias 
populacionais sendo que, para cada unidade amostral, realizamos duas medições 
da característica de interesse. De modo geral, essas observações correspondem a 
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medidas tomadas antes e após uma dada intervenção. Para ilustrar esta situação, 
considere o Exemplo 9.1 em que medimos o rendimento com a gasolina 
tradicional e depois com o novo tipo de combustível. Essa é uma típica situação 
em que o teste t - pareado deve ser utilizado. Neste caso, é de se esperar que exista 
alguma correlação entre as observações tomadas em uma mesma unidade 
experimental. 

As medidas tomadas antes e após a intervenção realizada serão 
representadas pelas variáveis aleatórias X; e Y;, respectivamente. Desta forma, o 
efeito produzido pode ser representado, para o i-ésimo indivíduo, pela variável 
D; = Y; — X;. Supondo, para i = 1,...,n, 


D;  N(up,0b), 
queremos testar as hipóteses: 
H, : up = 0 (a intervenção não produz efeito) 
Ha: up £ O (a intervenção produziu algum efeito), 
sendo que a hipótese alternativa pode também ser unilateral. 


O parâmetro up é animada pela média amostral D e, como usualmente 
não temos informação sobre o%,, estimamos seu valor por S2, dado por 


' 1 n a 
Sh = DD: -D}. 


O teste de hipóteses é realizado utilizando-se a quantidade 


D- up 
A 


que, sob H,, segue uma distribuição t-Student com n — 1 graus de liberdade. O 
teste segue os mesmos passos discutidos no capítulo anterior. 


T= 


Exemplo 9.3: No Exemplo 9.1, o rendimento foi representado por X; e Y; para o 
automóvel i, respectivamente antes e após o novo combustível. Os valores 
observados, em km/l, junto com as diferenças D; = Y; — X;, para os 12 
automóveis são apresentados na tabela a seguir. 


[Após (7) [16 [88 [9,0/95] 
[68 [78] 


Antes (X) 6,8 
35 
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“Os dados de consumo, antes a após o novo combustível, podem ser 
visualizados através de gráficos box-plot, apresentados a seguir, de onde podemos 
notar indicações de que o rendimento é, aparentemente, maior após o uso do novo 
combustível. 


14 


12 


Rendimento (km/l) 


10 


Antes Depois 


Para podermos verificar se o rendimento é de fato superior, precisamos 
proceder ao teste: 


H, : up = 0 (o novo combustível não aumenta o rendimento); 
H, : up > 0 (o novo combustível aumenta o rendimento), 


com up representando o valor esperado da diferença de rendimento, isto é, 
up = E(Y — X). Estaremos assumindo que a distribuição de D; = Y; — X;, 
para à = 1,...,12, é Normal com média up e variância A 

Com os dados observados, obtemos dobs = 2,9 e estimamos oł, por 


Dun = 2,4. Logo, sob H», 


dobs — ED =» 2,9 = 


bos = — 
O soyle a To 


Com a = 0,05 e utilizando a tabela da distribuição t-Student com 11 
graus de liberdade, obtemos t, resolvendo a equação P(T > te) = 0,05. Obtemos 
ta = 1,796 e como tops > te, concluímos que o novo combustível é eficaz na 
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melhora do rendimento, acarretando diminuição do consumo para o tipo. 
veículo considerado no experimento. 


Caso 2. Amostras independentes com variâncias conhecidas 


Consideramos agora o teste relacionado com a situação em que quereme 
comparar médias de duas populações independentes, quando as correspondent 
variâncias são conhecidas. A obtenção de informação a respeito do valor é 
variância populacional pode ser obtido de estudos anteriores ou experimente 


similares. 
sistema 
idos € f 


Exemplo 9.4: Vimos no Exemplo 9.2 que, para comparar dois 
operacionais, dois grupos independentes de estudantes foram selecion: 
tempo necessário para realizar a tarefa foi anotado. 


Os dados obtidos foram os seguintes (em minutos): 


182 185 193 175 184 192 175 173 186 178 162 179 164 182 186 
B 92 76 7,6 90 97 90 86 93 100 115 85 80 90 86 94 


Grupo 
A 


A inspeção visual dos dados sugere que o Grupo B tende a realizar 4 
tarefa num tempo inferior àquele observado para o Grupo A. Para auxiliar estu. 
análise inicial, podemos construir gráficos box-plot para os grupos e colocá-los. 
lado a lado conforme a figura a seguir. 

Podemos observar que, para os alunos considerados, o novo sistema 
operacional oferece maior facilidade de aprendizado, caracterizado aqui pelo 
tempo de execução de certa tarefa, uma vez que o box-plot para o Grupo B está 
sensivelmente mais baixo. 

Note que o valor da mediana do Grupo B é inferior ao do Grupo A, mas 0 
intervalo entre o primeiro e o terceiro quartil é próximo para os dois grupos, 
dando a idéia de que a variabilidade do tempo de aprendizado é semelhante para 
ambos os sistemas operacionais. 

É importante ressaltar que, para podermos concluir que o novo sistema é 
de fato eficaz, precisamos extrapolar as conclusões anteriores para toda a 
população de crianças com idade entre 8 e 12 anos. Isto pode ser feito, realizando 
O teste de hipóteses que será descrito em seguida a este exemplo. 


considerar a seguinte situação g 


Comparação de Duas Médias 


Tempo (min) 


Grupos 
(m) 


ili omparação. 
Outras medidas descritivas podem ser calculadas para auxiliar na comparaç 


: 38 
: odemt 
Utilizando a motivação fornecida pelo exemplo anterior, P Juas 
ili eral. Suponha que desejamos pe ve 
' A á 550, 
. e a ecido gź. Além dis 
jopulações, cujas variâncias são iguais a um valor conh pd dr modelo 
e 2, ~ 
f - »s admitir que estas duas populações se comportam se resentando à 
vamos h médias p € H2 Sejam X e Y as variáveis aleatórias rep l ue os 
ormal, com . a ortanto 
à racterística de interesse em cada uma das populações. Segue, Do a T árias 
ih poderão ser representados por E pi E in aleatórias, 
a esentando 
i e (Yi, +.» Yna), repr stra 
pendentes (X1,..., Xm) coa 
ro isde a das populações. Deve ser notado que os tamanh 
obtidas 


iguai estar 
11 € ng podem, eventualmente, ser Iguais. Queremos t 
H, : As médias populacionais são iguais; 
dá . mo m . . 
H, : As médias populacionais não são iguais. 
x * 
i e po: 
listas hipóteses podem ser traduzidas em termos de u1 € u2 


H, : Hı = H2; 
H, : tia £ H2- 
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Se a suspeita sobre a diferença entre as médias é de que a média de uma 
população é maior (ou menor) do que a média da outra, podemos reescrever H, 
como [ty > u2 (OU |ty < u2) e proceder ao teste unilateral. 

Como estamos interessados em determinar se a diferença é 
estatisticamente significante, podemos ainda reescrever as hipóteses em termos de 
HD = — Ha, isto é, ON 
Ho: up =0; 

Ha : HD Ea 0, 
o que sugere trabalharmos com o estimador de HD: 
D=Xž-F. 
Comas suposições feitas, temos 


Xi ~ N(m, 02), 
Y; ~ N (m, 02), = 1,2, + N2. 


Pela independência dessas variáveis, D terá distribuição Normal com média 
E(D) = up e quanto à variância, temos: 


Var(D) = Var(X - Y) = Var(X) + Var(Y) 


E 1 1 
=Z rofi), 
nı Na nm m 


Note que a independência entre as amostras foi necessária para obter essa 
variância, uma vez que a covariância entre as médias amostrais é zero. 

Com estas informações, procedemos ao teste de hipóteses do modo usual, 
Caso não saibamos qual é a distribuição da característica na população podemos, 
para amostras de tamanho grande, lançar mão do Teorema Central do Limite e 
trabalhar, de modo aproximado, com a distribuição Normal. - 


Exemplo 9.5: Continuando o Exemplo 9.4, sejam T, e T) variáveis aleatórias 
representando os tempos de aprendizado para os grupos À e B, respectivamente. 

Tendo em vista que nı = n = 15, as amostras das respectivas 
populações são os conjuntos de variáveis aleatórias independentes 
(Ti. tim) e (T21,-.., T215). Além disso, assuma que informações 
adicionais fornecidas pelas empresas indicam que a variabilidade dos tempos de 
aprendizado é a mesma para ambos os sistemas operacionais e igual a ør = 10 
min. Logo, para i = 1,2,...,15, 
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Ti; ~N N(m, 100); 
i To; ea N (m2, 100). 


Queremos testar 


H, : Tempo médio é igual para ambos os sistemas ; 
H, : Aprendizado do novo sistema é, em média, mais rápido. 


As hipóteses podem ser formuladas como 
He :m = ua; 
Ho : pı > po, 
ou, equivalentemente, 
Ho : pp = m — p2 = 0; 
H, : 4D = p — m > 0. 
A região crítica será dada por RC = {d E R : d > de} e o estimador de up será 
dado por D = Ti; — T , com i 


15 15 
Do Tá > Dai 
Tho = i=1 6 Th = i=1 : 
15 15 


Pela suposição de que os tempos seguem o modelo Normal e, lembrando 
que as amostras são independentes, segue que a distribuição de D é Normal com 
média up e variância 


100 | 100 _ 200 


Var(D) = Var(T1) + Var(T2) = 15 + Eri — ERA = 13,33. 


Utilizamos agora o procedimento usual para testes de hipóteses, fixando 
a = 0,05 e encontrando um valor crítico de tal que 


P(rejeitar H, | Ho verdadeira) = P(D € RC | up = 0) 


ee É j 
-p(2 up, de Z) -2> ) = 0,05. 


pa > — 
4/ 13,33  4/13,33 3,65 
Consultando a tabela da distribuição Normal padrão, obtemos z = 1,64. Logo, 


de = 1,64 x 3,65 = 5,99. 


Então, RC = (de R|d > 5,99). 
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Considerando os valores amostrais observados, temos que a média para o 
grupo À é 179,73 min e, para o grupo B, é de 89,86 min. Assim, 


dobs = 179,73 — 89,86 = 89,87. 


Como dop E RC, rejeitamos a hipótese nula, isto é, a um nível de significância - 


de 5% concluímos que, para alunos com findo ea 8 e 12 anos sem 
conhecimento computacional prévio, o tempo d 
operacional é menor. m 


Consideramos, agora, a situação em que as populações apresentam 
médias desconhecidas e variâncias populacionais conhecidas, porém com valores 
diferentes. Nesse caso, já sabemos que as ões são diferentes, uma vez que 
as variabilidades da característica de intgresse nas duas populações são diferentes. 
Ainda assim, podemos estar interessados em verificar se as médias também são 


diferentes e utilizar a teoria de teste de hipóteses, para embasar estatisticamente a 


decisão a ser tomada. 
Com as suposições e a notação já apresentada anteriormente, temos agora 
que X ~ N(ux,ok)eY ~ N(uy, 04), comox £ oy. Então, 


X ~ N(ux,ok/m) e Y~ N(uy,ot/no). 


Para D = X — Y e utilizando a independência entre X e Y, temos que 


2 2 
=a Es = o o 
Var(D) = Var(X) + Var(Y) = LT, 
nı nə 
e, então, D ~ N (ux — uy, o%/m +02} /n2). A partir daqui, o teste prossegue na 
forma usual. No próximo exemplo, ilustramos o procedimento apresentado, de 
variâncias conhecidas porém diferentes. 


Exemplo 9.6: Uma empresa avaliadora de imóveis está estudando as regiões 
central e oeste da cidade de São Paulo. O objetivo principal é verificar se o preço 
médio, praticado para imóveis comerciais de um dado tamanho, é o mesmo nas 
duas áreas. De levantamentos anteriores, a empresa sabe que a área oeste 
apresenta uma heterogeneidade de preços imobiliários (em UPC- unidade padrão 
de construção) maior do que a região central, sendo os desvios padrões iguais a 
0,82 UPC para a região oeste e 0,71 UPC para a região central. Para verificar se 
os preços médios são iguais ou não, duas amostras, uma de tamanho 20 e outra de 
tamanho 18 foram retiradas aleatoriamente de cada região. Os dados são os 
seguintes: 


aprendizado com o novo sistema 
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Região Central 
41,2 40,5 39,6 394 38,9 39,1 40,9 41,2 40,4 40,0 
40,6 40,3 39,2 40,6 39,7 40,3 40,9 39,6 39,7 41,2 


Região Oeste 
37,2 34,9 381 354 35,7 37,7 36,4 36,6 36,1 
37,4 36,1 35,9 36,9 37,4 37,5 38,0 36,8 36,4 


Algumas medidas resumo são apresentadas na próxima tabela: 


Medidas Região 

Descritivas Central “ Oeste Ambas 
n 20 18 38 
Média 40,2 36,7 38,5 
Mediana 40,3 36,7 39,0 
Desvio-Padrão 0,7 0,9 l 1,9 
Mínimo 38,9 34,9 34,9 
Máximo 41,2 38,0 41,2 


O comportamento dos dados pode ser visualizado através de gráficos tipo 
box-plot, mostrados a seguir. 


Valor 


40 


Central Oeste 
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Note que o valor do desvio padrão amostral sugere, de fato, que as 
variâncias são diferentes nas duas regiões; mais ainda, a média de preço na região 
central parece ser superior à da região oeste. Para os dados observados, a região 
central tem, aparentemente, preços superiores à região oeste. Além disso, a 
variabilidade observada nos imóveis da região oeste é maior, o que, de certa 
forma confirma a informação fornecida pela empresa. Em resumo, para os dados 
apresentados nas duas amostras, temos um maior preço médio (amostral) para a 
região central. Essas conclusões são válidas apenas para os valores amostrais 
observados. Para podermos extrapolar esta conclusão para as regiões como um 
todo, precisaremos utilizar um procedimento estatístico que controle os erros, 
eventualmente, cometidos. 

Representando a informação dos preços na região central pela variável 
aleatória X e, para a região oeste, pela variável aleatória Y, assumimos que os 
dados são obtidos de duas populações Normais de tal forma que 


X ~ N(ux,0%/20) e Y ~ N(uy,0$/18). 


Nosso principal interesse é testar as hipóteses 


Ho: px = Hy; 
Ha: ux # HY. 
Definindo D = X — Y temos 
_ = = 0712 0,82 
Var(D) = Var(X) + Var(Y) = m Ca o 0,06. 


Logo, para œ = 0,05 vem: 


P(rejeitar H, | H, verdadeira) = P(D e RC | px — uy =0) 


de, 
= PLA 4 de, ou Z > —=) = 0,05. 


0,06 0,06 


Da tabela da distribuição Normal padrão obtemos os valores críticos: 


Ma a —1,96 = dy = —0,49; 
0,25 
de s 

— = 1,96 => de, = 0,49. 
0,25 j 


Consequentemente, 
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RC = {d € R : d < —0,49 ou d > 0,49} 


Como em nosso caso dops = 40,2 — 36,7 = 3,50 pertence à região crítica, 
concluímos que os imóveis situados nas regiões central e oeste têm preços médios 
diferentes, ao nível de significância de 59%. O 


Caso 3A: Amostras independentes com variâncias desconhecidas e iguais 


No caso anterior vimos que informações adicionais podem fornecer 
subsídios para o conhecimento dos valores das variâncias populacionais. Em 
geral, contudo, não temos informações a respeito do valor das variâncias, 
Entretanto, os processos que geram os dados podem nos levar a crer que, apesar 
de desconhecidas, as variâncias são iguais para as duas populações. 


Exemplo 9.7: Digitadores são treinados em uma empresa em duas turmas 
distintas. Na primeira, denominada Turma J, utiliza-se um método japonês de 
ensino, ao passo que na segunda turma, denominada Turma A, utiliza-se um 
método alemão. Deseja-se comparar os dois métodos e para tanto, 16 alunos de 
cada turma foram escolhidos aleatoriamente e uma mesma tarefa foi atribuída a 
cada um. Ao final do experimento, o tempo gasto na realização da tarefa, para 
cada aluno, foi anotado. No processo, dois computadores utilizados pelos alunos 
selecionados da turma J e três da turma A apresentaram problemas que impediram 
a realização da tarefa; o tamanho da amostra foi assim reduzido para 14 e 13, 
respectivamente, para as turmas J e A. 
Os dados obtidos foram: 


Turma Tempos (min) 
J 10 13 9 10 14 13 10 15 12 10 9 10 13 14 


A 15 12 18 16 15 17 17 15 16 17 11 17 14 


Apesar de não conhecidas, as variâncias populacionais para as duas turmas são 
consideradas iguais com base em estudos anteriores. E td 


Para formalizar a situação apresentada, supomos que os dados para o 
primeiro grupo são representados por variáveis aleatórias independentes 
X1,..., Xn €, para o segundo, Y,..., Yn,. Além disso, assumimos que 

2 o; ; 
Ag ~ N(ux, 0o"), i =1,..., N1; 
2 = 
Y; ~ Niiys 0 J = l;a na: 
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Para ambas as populações, temos a mesma variância o? (desconhecida). Suponha 
“que nosso interesse é testar 


Ho: ux = Hy; 
Ha: ux fm. 


Novamente, consideramos o estimador D definido pela diferença X —Y. Dada a 
independência entre as amostras, segue imediatamente que 


E(D) = ux — py; 
Var(D) = o? (= + =) 


mo mM 

Além disso, considerando também a normalidade dos dados, segue que 
D ~ N(ux — uy,0(1/n + 1/n9)). 

e consequentemente, 


D- (ux — uy) 
01/1/m + 1/no 


Como a variância populacional o? é desconhecida, precisará ser estimada. Tendo 
em vista que S% e S2 são ambos estimadores não viciados dessa variância, 
usaremos como estimativa para o? uma combinação deles, dada por: 


~ N(0,1). 


SX -X+ — PY? 
cam Sp+(m Sp A 20 ) , 
e (m-D+(no -1) ni +m- 2 


Note que S2 é uma média ponderada entre S% e 53, com ponderação dada por 
nı—1 e n9—1. Dessa forma, estaremos utilizando para estimar o?, toda a 
informação disponível nas duas amostras. Além disso, pode-se mostrar que S2 é 
não viciado para o°. 

Da mesma forma que na Seção 8.3 do Capítulo 8, o uso do estimador sê 


nos leva a trabalhar com a distribuição t-Student, isto é, 


q = Po Ux- ur) 


o Se/1/ny + 1/n2 
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tem, sob H,, distribuição t-Student com ny + ng — 2 graus de liberdade. 
Dada a hipótese alternativa apresentada, procedemos ao teste bilateral da 
forma usual, isto é, fixado a encontra-se o valor te tal que 
a = P(rejeitar H, | H, verdadeira) 
= P(T < —t.ou T > te | Ho). 


2 


A quantidade t. é então obtida da tabela da distribuição t-Student, com 
nı + Nng — 2 graus de liberdade. A região crítica para o teste é dada por 


RCO ={tER:t< —t. ou t> te}. 


Uma vez obtidas as amostras, substituindo as estimativas de D e S, na expressão 
de T, obtemos o valor tops. Rejeitamos Ho se tops pertencer à região crítica. 


Exemplo 9.8: Para o Exemplo 9.7, podemos escrever as hipóteses de interesse 
como 
H, : ux = py (os dois métodos são equivalentes); 
H, : HX f HY» 
com ux e uy representando, respectivamente, o tempo médio populacional para 
alunos da turma J e da turma A. As amostras forneceram os seguintes valores: 
nı = 14, Too = 11,57 e sk, = 4,1; 
n = 13, Jons = 15,38 e 84, = 4,3. 


Então, 


dors = Tobs — Tops = 11,57 — 15,38 = —3,81; 
2 (m-Dskat(no — sy, _ 13x 4,1+12x 4,3 _ 


a a PAO ST O V Yos 42. 
Pes (ny — 1) +(no — 1) 35 i 


Como a hipótese alternativa apresentada é bilateral, a região crítica tem a 
forma RC = {t E€ R : t < —t. ou t > te}. Logo, para a = 0,01 temos 
0,01 = P(rejeitar H, | Ho verdadeira) 
= P(T < -te ou T > te | Ho). 


Da tabela da distribuição t-Student com 25 graus de liberdade, obtemos 
te = 2,79. Consegiientemente, 
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RC = {t E€ R : t < —2,79 ou t> 2,79}. 


Utilizando as estimativas calculadas temos, sob H,, 


dobs —3,81 


tobs = > = 4,83; 
2 (1/m+1/n9)  v42(1/14+ a 


que pertence à região crítica e, assim, concluímos que os métodos de fato diferem, 
a um nível de significância de 19%. o 


Caso 3B: Amostras independentes com variâncias des nhecidas e diferentes 


O teste para o caso em que as variâncias são désconhecidas e desiguais é 
teoricamente mais envolvente. Assim, sem entrar em maiores detalhes, 
consideramos as mesmas hipóteses apresentadas noCaso 3A, só que, agora, a 
quantidade a ser usada para o teste será 


. T= D- (ux - py) 


pa 
4/ S2/m + S2/no 


A exemplo do caso anterior, t também tem distribuição t-Student, mas os 
graus de liberdade v são corrigidos pela expressão 


o Sg/m + S/n)’ 


(Sim) (Sena)? 
m—l ng—1 


A segiiência do teste é similar àquela apresentada nos casos anteriores. 


Na Tabela 9.1 mostramos um resumo dos testes considerados nesta seção. 

Encerramos esta seção, considerando a situação em que a característica de 
interesse não se comporta segundo um modelo Normal. Novamente, a alternativa 
será coletar uma amostra de tamanho grande o suficiente, a fim de utilizar o 
Teorema Central do Limite e obter distribuições amostrais aproximadamente 
Normais. Como um exemplo desse procedimento, vamos desenvolver o teste para 
a igualdade de duas proporções. 


Ti 


j | 9 
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Tabela 9.1: Comparação de médias para duas populações. 


T 
D: 


Exemplo 9.9: Num estudo sobre doenças infantis, desejamos investi gar se 
a incidência de casos de contaminação por vermes é afetada pela idade. Dois 
grupos de crianças, um com idades de 2 a 4 anos (Grupo 1) e outro, com idades de 


7 a 9 anos (Grupo II) foram escolhidos para serem examinados quanto à 
ocorrência de vermes. Os dados são apresentados a seguir: 
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Grupo Proporção com Verminose 
0085 


u | w (o Mm 


Para saber se as duas faixas etárias acima têm o mesmo comportamento, quanto a 
incidência dessa doença, podemos realizar um teste de hipóteses envolvendo 


proporções. ) E 


Considere que desejamos verificar o comportamento de uma certa 
característica em duas populações. Se a amostra for suficientemente grande 
sabemos, pelo Teorema Central do Limite, que a distribuição de probabilidade da 
proporção amostral tem um comportamento aproximadamente igual ao modelo 
Normal. Na comparação de proporções em duas pulações, usaremos como 
estimador a diferença entre as respectivas propofções amostrais. Não é difícil 
“Verificar que ela será um estimador não viesado a respectiva diferença entre as 
proporções populacionais. 

-. Supondo que duas amostras independentes foram retiradas, uma em cada 
população, teremos duas proporções amostrais independentes e a diferença entre 
elas também terá distribuição aproximadamente Normal. Assim, se o interesse é 
testar: 


Ho : pı = p versus H, : pi £ p, 


então o estimador a ser utilizado será di — P, cuja distribuição será aproximada 
pela Normal cujos parâmetros são obtidos, considerando-se as relações: 


E(f - bo) =p — po; 


Var(pi — P) = Var(fi) + Var(io) = pd) + mU- m), 
m n2 
Note que, para calcular a variância, a independência entre as amostras garantiu a 
independência entre f e p e, portanto, a covariância entre eles se anulou. 

Sendo a hipótese nula verdadeira, as proporções populacionais são iguais. 
Denotando seu valor comum por p, isto é pi = p = p, podemos obter um 
estimador para p através da ponderação dos estimadores não viciados D e p. 
Dessa forma, obtemos 


P = np + nmp . 
á Mm + Na 
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P ã py — P), podemos 
Substituindo os valores de py e pz por Ð, na expressão da Var(pi — pz), P 
escrever, sob Ho, 


P — Pa ~ N(0,1). 
Pp (1 = Dpo)(1/m T 1/n2) 


i itui Pi e p por suas 
Para concluir o teste, calculamos a quantidade 2,05, substituindo p; e p2 po E 
i ; . . ` as A ue 
correspondentes estimativas. Verificamos se Zops pertence à região crítica, q 


caso bilateral é dada por 
RC ={zER]| z < Za ou z > Ze}. 
Dado um nível de significância œ, os valores Ze € Ze são obtidos da ret 
distribuição Normal padrão. Como procedimento alternativo, podemos tam 
ra o nível descritivo para decidir sobre a aceitação ou não de Ho. 
Exemplo 9.10: Para o Exemplo 9.9, testaremos 
H:p=p versus Ha : pi fp; 


Õõ i inose na 
com pı e pm representando as proporções de crianças com verminose 


jopulação dos grupos I e II, respectivamente. Pelas informações recebidas, 
ndo 120, n9 = 260, Pi obs = 0,085 € P2ops = 0,103. Logo, sob Ho 


= nı Piobs + N2 Poops _ 120 x 0,085 + 260 x 0,103 _ 0,097; 
t Ppobs =- ~ mtae 120 + 260 


e também, 


Pp (1 — Pp, )(1/n1 + 1/n2) = 0,097 x 0,903 x (1/120 + 1/260) 
Pobs Pobs _ 0.0011. 


Segue então que 
Pi — P 


JOL 


Para a = 0,08 os valores Ze € Ze são calculados através das expressões 
dades: 


P( (fi — P»)//0,0011 < ze | Ho) = 0,04; 
P( (Pi — )/N/0,0011 > ze | Ho ) = 0,04. 


N(0,1). 
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Assim, 
RC ={z €R| z< —1,75 ou z > 1,75}. 


Fazendo os cálculos, temos que Zos = —0,543 não pertence à RC. Logo, 
aceitamos a igualdade das proporções, ao nível 8% e concluímos que a incidência 
de verminose nas duas faixas etárias pode ser considerada a mesma. 0o 


Exercícios da Seção 9.2: | 


: ” 5 š i 
I. Para se avaliar o nível de tensão ocasionada por exames escolares, doze alunos 
foram escolhidos e sua pulsação medida antes e epois do exame. 


Instante Estudante 
da medição 1 2 3 4 5 6 
Antes 87 78 85 93 76 80 82 77 91 74 76 79. 
Depois 83 84 79 88 75 81 74 71 78 73 76 71 
= El TS th do to dO fd. 


Faça um teste, com nível de significância de 19%, para verificar se existe maior 
tensão (isto é, maior pulsação) antes da realização dos exames. Indique as 
suposições necessárias. 


2. Sabe-se que o tempo necessário para percorrer uma determinada rota no final 
da tarde pode ser estudado por um modelo Normal com desvio padrão de 17 
min. Foram instalados sensores para controlar o tempo de abertura dos 
semáforos presentes na rota e deseja-se verificar se o tempo gasto para 
completar o percurso diminuiu. Estudos anteriores indicam que o tempo deve 
continuar se comportando segundo um modelo Normal, com mesmo desvio 
padrão. Com os sensores desativados, 11 veículos de mesmo ano e marca, 
denominado Grupo Controle, tiveram o tempo gasto no percurso anotado. Em 
seguida, os sensores foram ativados e outros 13 veículos (Grupo Teste) 
percorreram a mesma rota. Os tempos observados, em minutos, foram os 
seguintes: 


Grupo Tempos utilizados no percurso 

Controle 38 26 20 70 16 26 38 32 45 49 32 

Teste 17 31 28 21 50 21 20 51 10 22 18 35 29 
DDD trata O cd) ao 


Indique se o uso dos sensores contribui para diminuir o tempo médio de 
percurso utilizando o nível descritivo do teste. 
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3. Para verificar se duas populações têm a mesma média, amostras independentes 
foram retiradas. Sabendo que a população I é Normal (41,25) e a população H 
Normal (u2, 40), que conclusão pode ser tirada, ao nível 2%? Os valores obtidos 


foram: 
População Dados 
I 12 14 15 14 13 17 14 13 
H 13 17 14 13 16 17 18 16 


4. As variáveis X e Y seguem a distribuição Normal com mesma variância, 
Deseja-se testar se, também, têm a mesma média. Doze observações de cada 
variável foram escolhidas e os resultados foram os seguintes: 

12 12 12 Lo, 
x; = 48, J y; = 56, 3522 = 4.900, »yi = 5.650. 
i=1 i=1 i=1 i=1 

Qual é a conclusão ao nível de significância de 5%? 


5. Para comparar as médias de duas populações Normais, amostras aleatórias 
foram obtidas. Sabe-se que as variâncias populacionais são diferentes, sendo 


seus valores desconhecidos. 


Amostral 7 9 3 8 11 5 9 
Amostrall 2 7 5 15 9 16 8 


O que pode ser dito a respeito das médias das populações, com a = 0,05? 


6. Dois medicamentos para tratamento de infecções bucais estão sendo estudados 
e o melhor desempenho é definido pela rapidez em eliminar a infecção. 
Pacientes escolhidos ao acaso receberam um dos medicamentos e tiveram a sua 
cura classificada em rápida ou não. Deseja-se testar, ao nível 10%, se os 
medicamentos são equivalentes. Os dados obtidos são apresentados a seguir. 


[| Amostra | Pacientes com cura rápida 


Qual seria sua conclusão? Indique as hipóteses do teste e as suposições 


ooj N 


necessárias. 
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9.3 Testes para Variância 


Os testes de hipóteses considerados até aqui envolveram, como 
parâmetros de interesse, a média ou a proporção populacionais. Na seção anterior, 
vimos que, para desenvolver os testes de comparação de médias, é importante 
considerar o que ocorre com a variância populacional. Nesta seção, estamos 
interessados em estudar a dispersão dos valores em uma ou mais populações, 
através de suas variâncias. Para isso, apresentamos alguns testes envolvendo essas 
quantidades. Iniciamos com o caso de uma única população, conforme motivado 
pelo exemplo a seguir. 


Exemplo 9.11: Sabe-se que em uma região do país a altura média é de 1,68 m, 
com variância 0,30 m?. Um pesquisador acredita que a alimentação rotineira em 
uma cidade litorânea, sendo diferente da região Como um todo, contribui para que 
as pessoas apresentem alturas mais homogêneas, apesar de não alterar a altura 
média da população da cidade. Para verificar sua suspeita, ele coletou uma 
amostra de 31 pessoas e obteve como estimativa para a variância o valor 
s2,. = 0,25m?. Neste caso, o pesquisador deve realizar um teste de hipóteses 


obs 


relacionado à variância populacional para tirar suas conclusões. m) 


Considere as hipóteses nula e alternativa, dadas por: 
-o2 — nbs 
H, : 0f = 0%; 


H, : 0? £ o? (0u o? > o2 ou o? < o). 


Aqui, o? representa a variância populacional em que estamos interessados e o? é 
um valor numérico particular para o parâmetro. Para testar a hipótese H, 
obtemos uma amostra de tamanho n da população e consideramos a quantidade 


(n — 1)S? 


V= m 


2 

que envolve S2, a variância amostral. Se a população da qual a amostra foi 
retirada se comporta de acordo como um modelo Normal, então, sob a hipótese 
Ho, temos que 
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O estimador S? é utilizado no teste pois, como visto anteriormente, é um 
estimador não viciado para o?. Baseando-se em V, construímos o teste, cuja 
região crítica, para o teste bilateral, terá a forma 


RC = {vE R |v < va ouv > ve), 


com Ve € Ve, determinados a partir da distribuição Qui-quadrado com n — 1 graus 
de liberdade e nível de significância œ. O procedimento é ilustrado no próximo 
exemplo. 


Exemplo 9.12: Para o Exemplo 9.11, as hipóteses de interesse são 
H, : = 0,30; 
H, : o° < 0,30. 

Temos que, sob Ho, o? = 0,30 . Logo, 


(n= 1),  30x025 oem 


Vobs — 
mi o? 0,30 


A região crítica do teste será dada por RC = {v € R | v < ve}. Utilizando a 
tabela da distribuição de Qui-quadrado com 30 graus de liberdade e tomando 
a = 0,05 vem 


P(V < ve | o° = 0,80) = 0,05 = ve = 18,49. 


Logo, como voos > 18,49 não rejeitamos a hipótese Ho, isto é, as alturas. na 
cidade não são mais homogêneas do que aquelas observadas na região como um 
todo. Ao invés de fixar œ, poderíamos calcular o nível descritivo, obtendo 
a* = 0,30. o 


Outro teste de interesse é aquele que verifica se as variâncias de duas 
populações são iguais. O teste de comparação de variâncias é também útil como 
um procedimento preliminar em testes de comparação de médias, auxiliando a 
escolha das técnicas adequadas. 


Exemplo 9.13: Um fabricante de esferas para rolamentos desenvolveu um novo 
método de produção, mais barato. Entretanto, ele desconfia que os novos lotes 
apresentam variabilidade diferente daqueles produzidos pelo método antigo (com 
relação ao diâmetro das esferas). Para cada método, ele selecionou aleatoriamente 
15 esferas que forneceram os seguintes diâmetros (em mm): 
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Método 
X (antigo) ` Y (novo) 

29,9 30,1 29,8 30,3 
29,8 29,9 29,8 29,9 
29,8 30,0 30,4 29,7 
29,7 30,0 29,8 30,3 
29,9 29,6 30,5 | 30,4 
29,8 30,4 29,6 | 29,1 
29,9 29,9 29,3 30,0 
29,9 294 |) 


Algumas medidas descritivas foram calculadas, sendo Z,ps = 29,93 mm, 
Vos = 29,89 mm, Seus = 0,03 mm? e s}, = = 0,19 mm?. Na figura que segua, 
apresentamos os respectivos gráficos box-plot, que sugerem variabi 
diferentes entre os dois métodos. 


Diâmetros (mm) 
8 
q 
sL 


8 
[e] 
[os 


29,5 l 
ed A 


Antigo Novo 
Métodos de Produção ' 


Entretanto, para podermos tirar uma conclusão objetiva, precisamos testar a 
hipótese de igualdade de variâncias. 0 
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Vamos construir agora o teste de igualdade de variâncias de duas 
populações, representadas por X e Y, tais que X~ N (ux,0%) e 
Y ~ N(uy,o2). Desejamos testar as hipóteses 


Hoc = ok! 
H, 0 Ff of. 
Utilizaremos a quantidade 
2 102 
F = S% J SY, 


baseada nas amostras X1,...,Xm € Yi,..., Yn obtidas das populações de 
interesse; cujas variâncias estão sendo comparadas. Sob a hipótese Ho, pode ser 
mostrado que F segue o modelo de Fisher-Snedecor, que é caracterizado pelos 
graus de liberdade associados às quantidades presentes no numerador e no 
denominador de F, no caso, nı—1 e n9 —1, respectivamente. Para a 
distribuição de Fisher-Snedecor, utilizaremos a notação F'(a,b), sendo ae bos 
graus de liberdade. 


Densidade 


P(F > f.) 


fe 
Figura 9.2: Distribuição de Fisher- Snedecor. 


Probabilidades baseadas na distribuição de Fisher-Snedecor têm de ser 
calculadas computacionalmente e são obtidas em planilhas eletrônicas e 
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programas estatísticos. Para valores selecionados de nı e nz, tabelas podem ser 
consultadas e, em geral, são construídas de forma a fornecer, para uma dada 
probabilidade, o valor fe conforme mostrado na Figura 9.2. No Apêndice A, 
apresentamos tabelas dessa distribuição para probabilidades iguais a 0,05 e 0,95. 

Assim, para um nível de significância a pré-fixado, podemos obter os 
valores fı e fo tais que 


P(F<fhouF>f)=a, 
com | \ 
F ~ F(nı — 1; n — 1). 

A região crítica para o teste bilateral é dada por 
RC ={f ER: f< fı ou f 2 Af2F 


Portanto, se fos E€ RC, rejeitamos a hipótese de igualdade das variâncias. 


Exemplo 9.14: Voltando ao exemplo anterior, queremos testar se as variâncias do | 
diâmetro das esferas produzidas pelos métodos antigo (X) e novo (Y) são iguais 


ou não. Isto é, 


SÊ ESA 
H, : o% = oý ; 

à m2 2 
H, : ox Hoy. 


Note que as hipóteses podem, de forma equivalente, ser expressas como 


0x 
Ho : = 1; 
Oy 
H g o% Æ 1 
al Ea i 
Sob a hipótese Ho, temos que 
S2 
F= = ~ F(14,14). 
Y 


Logo, fixando a = 0,10 determinamos a região crítica do teste, de modo que 
P(F<f)=0,05e P(F > f2) = 0,05. Dada a forma das tabelas de Fisher- 
Snedecor apresentadas no Apêndice A, precisamos determinar fı e fz tais que 
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P(F > fi)=1-— P(F < fı) = 1- 0,05 = 0,95; 
P(F > f2) = 0,05. 


Essas quantidades estão representadas nas figuras a seguir. 


Densidade Densidade 


f F A F 

Da tabela da distribuição de Fisher-Snedecor, com 14 graus de liberdade para o 
numerador e 14 graus de liberdade para o denominador, obtemos que fı = 0,403 
e fo = 2,484. Logo, 


RC = {f € R* : f < 0,403 ou f > 2,484). 
Para os dados disponíveis, temos que 
| foss = Sr. 8%, = 0,03/0,19 = 0,158 € RC. 


Portanto, confirmando as evidências fornecidas pela análise descritiva, 
concluímos ao nível a= 10% que existem diferenças em termos da 
homogeneidade dos diâmetros das esferas, dependendo do método utilizado. o 


Uma peculiaridade aparece no caso de testes unilaterais, uma vez que a 
forma da região crítica depende de qual quantidade é considerada no numerador 
da expressão de F. Para esses casos, a representação das hipóteses de interesse 
em termos de frações evita possíveis confusões na construção de F. O exemplo, a 
seguir, ilustra esse procedimento. 


Exemplo 9.15: Um fabricante de panetones costuma vender produtos de segunda 
qualidade (no que diz respeito ao formato) a preços reduzidos. Para panetones de 
500 gramas, suspeita-se que o produto de segunda qualidade apresente maior 
variabilidade no que se refere ao peso. Para tanto, 26 panetones de primeira 
qualidade e 20 de segunda tiveram seus pesos aferidos. Denotaremos esses pesos 
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por X1, ..., X26 e Y,...,Y5, respectivamente. Foram calculados os valores das 
i “A . . 2 — 2 — 
variâncias amostrais, sendo dados por s Xa, Z 0,29 € 8%, = 0,73. 
As hipóteses de interesse são: 


H, : o% = o% versus H, : o? < eT 


Para determinar a região crítica e a quantidade F corretamente, 
reescrevemos as hipóteses como 


H, : o%/0} = versus H, : 0% /o> < 1. 


A construção de HF deve considerar a escolha da razão de variâncias nas hipóteses, 
no caso com as quantidades relacionadas a X no numerador, isto é, 


F=Sk/S, | 
e a região crítica será da forma 
ROC =(feR:f< fe}. 


Sob a hipótese nula, F ~ F(25, 19), e para a = 0,05 obtemos, da tabela da 
distribuição Fisher-Snedecor, f. = 0,495. 
Como 


fobs = Sa, Ya, = 0,29/0,73 = 0,356; 


temos que fos E RC e, portanto, concluímos que os panetones classificados 
como de segunda qualidade apresentam pesos com maior variabilidade do que os 
panetones de primeira qualidade. O 


Exercícios da Seção 9.3: 
1. Supondo X ~ F(a,b), encontre x, tal que: 


a. P(X > z.) = 0,05 coma = 18, b = 3. 
b. P(X > 2.) = 0,05 coma = 3, b = 18. 
c. P(X > x.) = 0,05 coma = 180, b = 192. 
d. P(X > z) = 0,95 coma = 5, b = 12. 
e. P(X > z) = 0,95 coma = 30, b = 40. 
2. Uma linha de montagem produz peças cujos pesos, em gramas, obedecem ao 


modelo Normal com variância 30 g?. Os equipamentos foram modernizados e, 
para verificar se o processo continua sob controle, foi tomada uma amostra de 
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23 peças, que forneceu sĉ,, = 40 g?. Existem evidências indicando que a 


obs 


variância mudou, considerando aœ = 10%? 


3. Uma panificadora produz determinado tipo de pão, cujo peso médio é de 190 
gramas, com desvio padrão de 18 gramas. Devido a mudanças na política 
Cambial, que ocasionou aumento no preço do trigo, alguns ingredientes da 
receita foram substituídos. Uma equipe do governo resolveu verificar se a 
variabilidade no peso do produto aumentou e escolheu, aleatoriamente, 16 
unidades, medindo o peso de cada uma. O peso médio obtido da amostra foi de 
102 gramas e o desvio padrão foi de 24,5 gramas. Qual a conclusão para 
a=10%. 


4. Para comparar o grau de diversidade de duas populações primitivas, uma 
medida antropométrica foi obtida em fósseis coletados em sítios arqueológicos, 
fornecendo a tabela a seguir. 


Característica Sítio A (n = 17) Sítio B (n = 23) 


Média (cm) 15,12 12,21. 
Variância (cm?) 0,124 0,184 


O que pode ser concluído a respeito das variâncias? E das médias 
populacionais? 
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Consideramos nesta seção o caso de comparação de três ou mais 
populações, definidas por uma variável qualitativa (fator) através de testes com as 
correspondentes médias. Não abordaremos a situação com dois ou mais fatores 
neste texto e o leitor interessado poderá consultar as referências mencionadas na 
bibliografia. Iniciamos com o caso em que as amostras de cada população têm o 
mesmo tamanho. 


Exemplo 9.16: A gerência de um depósito que armazena cargas aéreas de 
pequeno porte está estudando o peso das cargas que chegam ao seu terminal no 
interior de São Paulo. Usualmente, o terminal recebe 4 tipos de cargas: doméstic: 
(D), administrativa (A), equipamentos industriais (E) e outros tipos (0). Deseja-se 
verificar se, em média, existem diferenças entre os pesos dos 4 tipos de cargas. 
Ao longo de 1 mês, cargas foram colhidas aleatoriamente e seus pesos foram 
aferidos, fornecendo os dados (em kg): 


ind. AG 
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Tipo de Carga 
D A E O 
24,9 27,9 38,4 23,8 
20,4 28,1 38,6 25,3 
24,2 28,4 41,2 23,5 
22,3 25,3 43,9 27,6 
20,3 29,3 40,2 25,5 
24,0 28,5 40,2 23,9 
23,5 27,9 37,3 22,6 


Estamos interessados em comparar os quatro grupos com diferentes tipos de 
carga. Descritivamente, observamos que os pesos de cargas do tipo E apresentam 
os maiores valores dentre os quatro grupos. Algumas medidas descritivas para os 
dados estão apresentadas na tabela a seguir. N 


Medidas Tipo de Carga 


Descritivas D A E O 
Média 22,8 27,9 40,1 24,6 
Mediana 23,5 28,1 40,2 23,9 
Desvio-Padrão 1,9 1,2 2,2 1,6 
Mínimo 20,3 25,3 37,31 22,6 
Máximo 24,9 29,3 43,9 27,6 


Os valores descritivos também sugerem que cargas do grupo E tendem a 
ter maior peso. Note que o menor peso observado para esse tipo de carga é maior 
que os máximos observados para todos os outros tipos. Após a carga do tipo E, as 
cargas do tipo A parecem ter, em média, maior peso. A carga de tipo D apresenta, 
em média, o menor peso. Salientamos que os desvios. padrões amostrais 
encontram-se razoavelmente próximos uns dos outros. O 


Para estudarmos a situação apresentada no exemplo anterior, 
consideramos um modelo estatístico, em que cada observação Y pode ser 
decomposta em duas componentes: sistemática e aleatória, esta última 
representando variações individuais e todos os fatores que não são explicados 
pela parte sistemática. Matematicamente, podemos escrever 


Y=u+e. 
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Assim, se Y representa a observação associada a uma unidade experimental, a 
parte sistemática u pode ser vista como a média populacional, que é fixa, e a parte 
aleatória e como a informação referente a outros fatores que podem influir nas 


observações mas não são incorporadas em p. 
Suponha que estamos interessados em comparar as médias de K 


populações, isto é, queremos testar 


Ho : p = m = = HK; 
H, : pelo menos uma das médias p; é diferente das demais. 


Para tanto, obtemos K amostras independentes, com m indivíduos em cada uma 
delas. Nesta situação, o modelo estatístico para a j-ésima unidade experimental, 
da i-ésima população é dado por 

Modelo 1:Y;;=m+Hej, 1=1,..,K;j=1,...,m 


Caso a hipótese H, seja verdadeira, teremos que todas as médias para as K 
populações serão iguais a um valor comum p. O modelo pode, então, ser escrito 
como | 


Modelo 0: Y;; = p+ ej i=1,...,K;j=1,..., m 


Uma forma de levar em conta a informação não explicada pela forma 
sistemática é através das somas de quadrado 


m m m 


SEAS DO e PYY u- 


=i j=1 i=1 j=1 i=1 j=1 t=1 j=1 


Essas expressões envolvem as quantidades desconhecidas u;, i = 1,..., K e p. 
Utilizaremos os dados para obter as estimativas correspondentes. Levando-se em 
conta que, no Modelo 1, estamos supondo diferentes médias para as K 
populações, consideramos os dados oriundos de cada uma dessas populações para 
estimar a correspondente média. Assim, segundo o Modelo 1 temos 


Para o Modelo 0, como assumimos que todas as populações têm a mesma média, 
utilizamos o estimador 
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K m 

1 == 

=> , far 
mK {=l j=l 

Substituindo as estimativas acima nas correspondentes somas de 


quadrados apresentadas anteriormente, definimos as quantidades soma de 
quadrados dentro (SQD) e soma de quadrados total (SQT), da seguinte forma: 


m m 


K 
SQD = Sy j- A} = Sa Y = DE -m> Y;; 


i=1 j=1 i=1 j=1 I= g= 
m m m 
SQT = DD -R= DI E da = Brg mar? 
i= 1=1 j=1 a = 


É importante ressaltar que as expressões resultantes fornecem uma maneira mais 
conveniente de se calcular, via computador ou manualmente, cada uma dessas 
somas de quadrados. 

A diferença entre SQT e SQD representa a soma de quadrados entre e 
será denotada por SQE, isto é, 


SQE = SQT — SQD. 


Das expressões para a soma de quadrados total e de dentro, segue que: 


K K 
SQE =m) F; -Y} =m Y; - KY’). 
i=1 i=1 


Cada uma das somas de quadrados envolve um certo número de 
quantidades que estão sendo estimadas. Por exemplo, SQT contém Y e SQD 


contém Y;, i =1,...,K. Levando este fato em consideração e o número de 
observações nas amostras, definimos os correspondentes quadrados médios: 
SQT 
QMT = E | 7: quadrada médio total; 
SQD SQD . 
QMD = mo = ie quadrado médio dentro; 
SQE 
QME = 7 53 r quadrado médio entre. 
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Note que, nesse caso, é preciso calcular as três quantidades anteriores 
pois QMT não é igual à soma de QMD com QME. 

O teste estatístico para a hipótese H, envolve os quadrados médios. Se a 
hipótese H, não for verdadeira, então, o Modelo 1 deve ser mais adequado aos 
dados do que o Modelo 0. Em outras palavras, os resíduos produzidos pelo 
Modelo 1 serão menores que os do Modelo O. Analisando sob este ângulo, 
podemos interpretar QME como sendo, em termos quantitativos, a informação 
contida nos dados que é captada pelo Modelo 1, enquanto que o QMD representa 
a informação não explicada pelo Modelo 1. Portanto, se QME for grande 
comparado à QMD, a parte sistemática do Modelo 1 estará captando grande parte 
da informação dos dados e a hipótese H, deverá ser rejeitada. Definimos, então, a 
quantidade 


_ ME, 
— QMD 


Quanto maior for o valor de F, maior será QME comparado a QMD e, assim, 
maiores as evidências contra H,. Para caracterizarmos o valor crítico a partir do 
qual rejeitamos Ho, precisamos encontrar a distribuição de probabilidade para F, 
Supondo as seguintes condições: 


e Y; são variáveis aleatórias independentes; 

e Todas as K populações têm variâncias iguais a o°; 
É dg o 

eY; ~ N(m, 0°) i=1,...,Kej=1,... m 


pode ser mostrado que 
F~ F(K-1, K(m-1)) 


isto é, a quantidade F tem distribuição de Fisher-Snedecor com K-—1 e 
K(m — 1) graus de liberdade. Temos, agora, condições de encontrar o valor 
crítico f, e determinar a região crítica do teste, que será da forma 


RC=(feR*:f>f) 


Das três suposições feitas, a mais importante é a segunda, Var(Yi;) = 0º, 
parai=1,...,Kej=1,...;m, que tem o nome técnico de homocedasticidade. 
A suposição de normalidade é importante em termos teóricos, mas, muitas vezes, 
na prática, o teste pode ainda ser utilizado quando ela não for válida, 
principalmente, se as amostras forem grandes. Nesses casos, o Teorema Central 
do Limite pode ser utilizado para justificar o uso da distribuição de Fisher- 
Snedecor. Caso a suposição de homocedasticidade não seja verdadeira, técnicas 
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alternativas podem ser utilizadas. Algumas delas envolvem aplicar uma 
transformação logarítmica ou quadrática aos dados. Esse assunto envolve técnicas 
mais avançadas e não será abordado nesse livro. 

A discussão sobre o comportamento dos erros e das somas de quadrados é 
resumida na Tabela 9.2 a seguir. 


Tabela 9.2: Tabela de Análise de Variância (ANOVA). 


l A tabela ANOVA fornece como subproduto um estimador para q 
variância populacional o2, baseado na suposição de homocedasticidade. Nesse 
caso, a variância amostral para o i-ésimo grupo, 


1 m — 
H= a. 


pode ser usada para construir um estimador da variância populacional. Isto é feito 
combinando esses valores através da média ponderada de S2,..., E: 


K m 
Yy- F; 
92 = MYS +m- > 17 Y) 
e (m-D+--+(m-1) K(m-—1) 
A expressão obtida para S2 é a mesma que encontramos para QMD. Note ainda 
que a expressão de QMT também é um estimador para o2, uma vez que 


m 


QMT= -SQT 1 : E Y. 77\2 2 
km-i" Km- 22 yY) =s. 


Ou seja, QMT nada mais é do que a variância amostral $2 para uma amostra 
composta pelo conjunto de todas as observações dos K grupos combinados. 
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Exemplo 9.17: Para os dados apresentados no Exemplo 9.16, temos K = 4 
grupos e m = 7 observações por grupo. Além disso, obtemos Yı = 22,8; 
Yə = 27,9; Y, = 40,1 e Y, = 24,6. A média geral é Y = 28,9. Cálculos 
intermediários podem ser, facilmente, feitos em uma planilha eletrônica ou 
calculadora fornecendo: 


yY.: 


t, 


4 7 4 
2 = 24.672,42 e 3 Y; = 3.513,80. 
i=1 j=1 i=1 


Usando as fórmulas de cálculo apresentadas anteriormente, obtemos 


K m K 
SQD=53"5%- m) Y; = 24.672,42 — 7 x 3.513,80 = 75,82; 
i=1 j=1 i=1 


K 
SQE = m(X Y; — KY’) = 7 x (3.513,80 — 4 x 28,862) = 1.275,41; 
i=} ' . 
K m BE 
SQT=3 3 Y;-mkKY = 24.672,42 — 7 x 4 x 28,86° = 1.351,23. 


i=l j=l 


f Uma vez calculadas duas das somas de quadrados acima, obtemos, sem 
dificuldade, a terceira. A tabela ANOVA é apresentada a seguir. ' l 


Fonte de Graus de Soma de Quadrado F 
Variação Liberdade Quadrados Médio 

Entre 3 1.275,41 =A = 452,14 S = 134,54 
Dentro 24 75,82 DR = 3,16 

Total 27 1.351,23 


Através da distribuição de Fisher-Snedecor, com 3 e 24 graus de 
liberdade e, considerando a = 5%, obtemos fe = 3,009. Logo, como calculamos 
fobs = 134,54 > fe, concluímos que, ao nível de significância de 5%, as médias 
de peso dos grupos são diferentes, confirmando as observações descritivas feitas 


0 


anteriormente. 


am =. 
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Grupos de tamanhos diferentes 


No desenvolvimento anterior, supomos que os K grupos têm todos o 


mesmo tamanho. Podemos considerar uma situação mais geral em que isto não | 


acontece. Vamos denotar por n; o número de elementos do grupo i. Neste caso, o 
total de indivíduos nos K grupos será igual a 


n = mn + +nx. 


Todos os resultados anteriores permanecem válidos, mas modificações algébricas 


são necessárias nas expressões que agora serão escritas da seguinte forma: 


Ni K 
s= 3137)? =5)3)48- DP 
i=1 


i=1 j=1 i=1 j=1 


K K 
SQE = X ni; Y} =X nY; -nY ; 
A A 


SQT = É Bos Yp = pir Y2 — ny”. 


i=1 j=1 i=1 j=1 


Note que, nesse caso, as médias geral e dos grupos são dadas por: 


A Tabela de Análise de Variância sofre poucas modificações, sendo dada 
por 


Fonte de Graus de Soma de Quadrado 


Variação Liberdade Quadrados Médio F 
Entre K-11 | SQE QME  QME/QMD 
Dentro n— K SQD QMD 
Total n—1 SQT 


com F~ F(K -1,n-— K). 
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Exemplo 9.18: O volume de vendas, no ramo de vestuário, tem se mantido estável 
de ano para ano, mas acredita-se que sofra mudança de um quadrimestre para 
outro, dentro de um mesmo ano. Através de uma metodologia adequada, foi 
criado um índice que reflete a quantidade vendida. Em cada um dos quadrimestres 
do ano, foram escolhidas aleatoriamente algumas empresas de mesmo porte e seus 
índices de venda foram calculados (ver abaixo). 


Quad! Quad? Quada3 
114,7 1447 1531 
144,7 1734 192,5 
119,1 154,2 145,5 
113,7 154,7 168,8 
108,9 125,9 141,5 
96,7 119,5 141,2 
87,6 155,7 189,6 
132,4 213,9 1784 
156,2 208,6 
159,0 


O comportamento das vendas pode ser visualizado na próxima figura. 


[2] 
© 
U 
G 
o 
> 
200 
É = 
120 
80 
Quadi Quad2 Quad3 
Quadrimestre 
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Uma rápida avaliação dos box 
os menores índices. Os outros dois qu 
mais próximos. 

o (0) modelo de análise de variância 
Ra estatística das diferenças observadas para os dados 
= 3, nı = 8, na a 10 e ng =9. Fazendo os cálculos preliminare 
que Y = 114,7; Y= 155,7; Y5=1688 e Y 
disponíveis e a ajuda de uma planilha eletrônica obtem 


-plot mostra o primeiro quadrimestre com 
adrimestres apresentam valores um pouco 


ui, temos 
, obtemos 
= 147,9. Com os dados 


os 
3 m E 5 i 
22 Y; = 617.359,68 e 2 niY; = 604.207,68. 
Então, 
3 n 3 
Bi 22 X- Dm; = 617.359,68 — 604.207,68 = 13.332,00: 


K 
T 2 2 
SQE = 2 nY; -nY = 604.207,68 — 27 x 147,93? = 13.344,90; 


e, com relação à variação total, 
SQT = 13.332,00 + 13.344,90 = 26.676,90. 
Com esses valores calculados, construímos a tabela ANOVA: 


Fonte de Graus de Soma de 
. ~ “ d 
Variação Liberdade Quadrados o” F 


Entre 2 13.344,90 1349 — 6.672,45 Sead = 12,01 
Dentro 24 13.332,00 1233200 555,50 
Total 26 26.676,90 


O teste fornece o valor fop, = 12,01 que deve ser comparado com o valor críti 

obtido de uma distribuição Fisher-Snedecor com 2 e 24 graus de lib di del 
Considerando a = 5%, obtemos f, = 3,403. Tendo em vista Ana f S Í 
concluímos que existe diferença nas médias de venda dos quadrimestres i É 


pode ser aplicado para verificar a 
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Exercícios da Seção 9.4: 


1. Três diferentes bancos possuem agências de mesmo porte em uma avenida 
movimentada de Salvador, BA. Para testar se essas agências têm movimento 
médio equivalente, foi escolhida uma semana típica de trabalho e o 
desempenho, nesses dias, foi registrado. Os dados obtidos, em milhares de 
reais, estão apresentados na tabela a seguir: 


Banco 
1 2 3 
199,2 227,2 246,5 
179,5 203,4 289,8 
984 111,8 127,4 


Qual seria a sua conclusão ao nível a = 5% ? 


2. Uma agência de empregos deseja verificar o grau de satisfação de seus clientes. 


Para tanto, escolheu aleatoriamente domicílios de famílias de bairros classe A, 
B e C, que fizeram uso da agência e solicitou que um questionário fosse 

. preenchido pela pessoa responsável na família. Os questionários foram 
devidamente codificados, a fim de fornecer um índice de satisfação que varia 
de 1 a 5 (totalmente satisfeito). Os resultados estão apresentados a seguir. Qual 
seria sua conclusão, considerando a = 0,05? 


Classe 
A B C 
2737 40 41 15 28 
43 46 23 42 17 31 
34 4,7 2,5 3,5 2,7 2,4 
2,9 3,9 2,5 4,2 2,5 


3. A fim de verificar o efeito de quatro tipos de propaganda de uma determinada 


marca de goma de mascar, crianças foram atribuídas aleatoriamente a cada 
uma de 4 salas que mostravam desenhos animados, com intervalos regulares 
em que as correspondentes propagandas eram inseridas. Após a sessão, as 
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crianças foram entrevistadas por psicólogos, que atribuíram um índice de 
assimilação a cada criança. Quanto maior esse índice, maior seria a lembrança 
do produto. Os dados são apresentados a seguir. 


Tipo de Propaganda 
I 


7 22 10 
7T 6 21 16 8 11 16 11 
6 7 23 15 7 16 19 18 
10 6 20 22 10 8 11 11 
o 6 18 18 13 15 11 10 
o 8 21 22 8 8 13 19 


Dr? 730 4.876 1.465 2.444 
s 


9.5 Regressão Linear Simples 


No Capítulo 5, definimos o coeficiente de correlação como uma medida 
de dependência linear entre duas variáveis. Em muitas situações, além de 
estarmos interessados em saber se existe relação entre duas variáveis, podemos 
desejar estabelecer uma relação de causalidade. Isto é, queremos quantificar qual 
é a mudança observada em uma das variáveis quando variamos os valores da 
outra. 


Exemplo 9.19: Em uma dada região de Bocaina-SP, acredita-se que o gado 
alimentado em um determinado pasto tem um ganho de peso maior que o usual, 
Estudos de laboratório detectaram uma substância no pasto e déseja-se verificar se 
cla pode ser utilizada para melhorar o ganho de peso dos bovinos. Foram 
escolhidos 15 bois de mesma raça e idade, e cada animal recebeu uma 
determinada concentração da substância X (em mg/l). O ganho de peso após 30 
dias, denotado por Y, foi anotado e os dados foram os seguintes (em kg): 
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Observando a tabela de dados, notamos que, de fato, à medida que aumenta a 
concentração da substância, ocorre um aumento no ganho de peso. l 

Conforme apresentado no Capítulo 5, o coeficiente de correlação linear 
entre a concentração X e o ganho de peso Y é calculado por: 


n 


DP Ti Yi — N T obs Yobs 
i=1 


o 785,55 — 15 x 2,70 x 16,14 180, 


— (163,39 — 15 x 2,702)(4.239,43 — 15 x 16,142) 


Z 


Desta forma, vemos que a variação do peso é sensivelmente influenciada pela 


variação da concentração da substância. l f 
Para observarmos como as variáveis se relacionam, construímos um 


gráfico de dispersão, apresentado na figura a seguir. 


Ganho de peso (kg) 


0 1 2 3 4 5 6 7 
Concentração (mg/l) 


is 
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Nota-se que os pontos tendem a se alinhar sobre uma reta, uja inclinação reflete 
o sinal positivo observado no coeficiente de correlação calculado. 0 


Utilizando o desenvolvimento da Análise de Variância apresentado na 
seção anterior, consideramos para o conjunto de valores (Xi, Y:), i=1,...,n, O 
seguinte modelo estatístico: 


Y; = g(Xi) + ei. 


Isto é, o comportamento de Y; é explicado em parte por X;, através da função 
g9(X;) e, em uma outra parte não captada por essa função, representada por e;. 
Várias opções para g(X;) podem ser utilizadas, mas a que define o modelo de 
regressão linear simples é 


Xi) =a + BX;. 
Portanto, dado um valor fixado x; para X;, o modelo pode ser reescrito como 
> [Z= a+ ate) 
Além disso, supomos que os termos e;, i= 1,... n, são independentes e 


distribuídos conforme um modelo Normal de média 0 e variância 02. Dessa 
forma, fixado X; = x;, as variáveis Y; são independentes e 


Y; ~ N(a + prio), i=1,...,n. 


Em modelos de regressão, a variável Y; é, comumente, denominada 
variável resposta ou variável dependente, ao passo que a variável X; é chamada 
variável independente, explicativa ou ainda covariável. Os parâmetros do modelo 
em que temos maior interesse são a e 8. Eles têm interpretações muito úteis na 
prática. O parâmetro a é o valor esperado para a variável dependente Y; quando 
X; é igual a zero. Para a interpretação do parâmetro p considere dois valores para 
Xi, dados por x e x+ 1, e represente por E(Y | X =x) o valor esperado da 
variável resposta quando X = x. Então, 


MMX =ási]=o+B+ 


= (a + px) +8B 
=E(Y |X=2)+08. 


Logo, 
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B=E(Y|X=2+D)-E(Y|X=a), 


indicando que ĝ representa o acréscimo esperado na variável resposta, quando a 
covariável é acrescida de uma unidade. Isto nos fornece uma idéia a respeito da 
intensidade com a qual a covariável atua na resposta. 

A estimação de œ e p pode ser feita através do método de mínimos 
quadrados, que consiste em minimizar a soma dos quadrados dos resíduos obtidos 
através da diferença entre valores observados y e valores esperados 
E(Y | X =x), calculados para cada X =x. A Figura 9.3 ilustra essas 
quantidades. Note que, caso o ajuste fosse perfeito, todos os pontos estariam 


alinhados sobre a reta e os resíduos e seriam todos iguais a zero. 


E(YIX=)=a+Bx ja A 


EWVIX=2x) +-----------> < 
Resíduo (e) 


x X 


Figura 9.3: Resíduos no modelo de regressão linear simples. 


Como em geral os pontos não estão perfeitamente alinhados, escolhemos 
a "melhor" reta possível no sentido de minimizar a soma de quadrados SQ(a, £), 


dada por 


SQ(a, 8) = Fln — EY; | Xi = 05)? 


i=1 


= DO -afn f = ya. 
m izi 
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Matematicamente, temos que resolver o sistema de equações envolvendo. 
as derivadas de SQ(a, 6) em relação a a e 8. Deixamos as [contas a cargo do 
leitor, apresentando aqui a solução para o sistema que fornecerá os estimadores dê 
mínimos quadrados para a e 8. Temos 


G=7-0T: 


DS viy— nEy 
lol 


n 
Dr? — nz? 
i=1 


D? 
II 


Exemplo 9.20: Vimos, no Exemplo 9.19, que o diagrama de dispersão sugere que 
uma reta pode ser utilizada para representar o efeito da concentração de uma certa | 
substância no pasto (X), no ganho de peso bovinos (Y). 

Para obtermos essa reta, precisamos calcular as estimativas de & e B. Dos | 
dados fornecidos obtemos: 


n=15, > cg = 785,55; X x? = 163,39; T =2,7007= 16,14. 
1=1 i=1 


Logo, 
Ziyi — NT Y 
2. A j Y _ 785,55 — 15 x 2,70 x 16,14 _ 44. 
Sox? — nã? 163,39 — 15 x 2,70? 07? 


& = 7 — ÂT = 16,14 — 2,44 x 2,70 = 9,55. 


Portanto, dado X = x;, a reta ajustada fornece valores Y, dados por 


Yi = Q + p ri = 9,55 +2,44 zi. 

A figura a seguir mostra os dados originais e a reta ajustada. O gráfico 
sugere que o modelo de regressão linear simples apresenta um ajuste adequado 
aos dados. 


— 
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Ganho de peso (kg) 


0 1 2 3 4 5 6 7 
Concentração (mg/l) 


A interpretação dos valores estimados é feita da seguinte forma. O ganho 
de peso esperado em bovinos que não recebem a substância X é 9,55kg (obtido 
substituindo z; = 0 na equação calculada acima). Por outro lado, um aumento de 
1 mg/l na concentração de X implica em um ganho médio esperado de 2,44 kg. 


Testes de hipóteses, envolvendo os parâmetros do modelo de regressão 
linear simples, baseiam-se na decomposição da variação total, discutida na seção 


anterior. 
O principal teste de interesse é verificar se a covariável influencia na 


resposta, o que é equivalente a testar 
H, : 6 = 0 versus. Ha : 80. 


Caso H, não seja rejeitada, adotamos o modelo 


Modelo O: Y; = a + ei, EE E hê 
caso Ħ, seja rejeitada, o modelo é 
Modelo 1: Y; = a + 8 Xi + €i, fes laren ii 


Através do Modelo 0 obtemos a soma de quadrados total, dada por 
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mm 


SQT= X (ui -7?, 


i=1 


que contém a variação total contida nos dados. Por outro lado, o Modelo 1 gera a 
soma de quadrados residual 


SQRes = a —8- Bo, 


i=1 


que contém a variação dos dados não explicada por esse modelo. A diferença 
entre as duas somas de quadrados fornece a soma de quadrados da regressão, 
dada por 


SQReg = SQT — SQRes = [ch x Fin — 7}. 
i=1 


Para estabelecer os graus de liberdade associados às somas de quadrados, 
precisamos levar em conta as estimativas envolvidas em suas expressões. Assim, 
SQT envolve a média Į, e assim, temos n — 1 graus de liberdade associados a 
essa quantidade; SQRes envolve duas estimativas, Q e ĝ, de forma que teremos 
n — 2 graus de liberdade. Para a SQReg, restam n — 1 — (n — 2) = 1 grau de 
liberdade. Consequentemente, definimos os quadrados médios por 


SQT 2 SQRes SQReg 
MT = — = MRes = —=-— MReg = ——. 
Q Iiae pigs à Wes 
Seguindo os passos da seção anterior, utilizamos 
F= QMReg 
QMRes 


para testar as hipóteses de interesse. Pode ser mostrado que F tem distribuição de 
Fisher-Snedecor com 1 e n — 2 graus de liberdade, isto é, F ~ FA, n—2). 

Em resumo, da mesma forma que na seção anterior, podemos apresentar 
as informações apresentadas em uma tabela ANOVA, específica para o modelo 
Y; = a + 8X; + e;, dada por 
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Fonte de Graus de Soma de Quadrado F 
Variação Liberdade Quadrados Médio 
[WWW 
Regressão 1 SQReg QMReg  QMReg/QMRes 


Residual n—2 SQRes QMRes 


nn 


Total n—l1 SQT 


Exemplo 9.21: (Continuação dos Exemplos 9.19 e 9.20) No estudo da relação 
entre ganho de peso de bovinos (X) e a concentração de uma substância (Y), 
estabelecemos uma reta de regressão. : 


Para verificar a evidência estatística do modelo realizamos um teste de 
hipóteses: 


H,:8=0 versus H,:ß #0. 
Os valores de QMReg e QMRes podem ser calculados com o uso de uma 


planilha eletrônica, conforme a tabela seguinte 


(u -@- pr) (z:- 7}? 


1 

1 0,41 6,25 
2 0,39 4,84 
3 1,65 4,41 
4 1,12 4,00 
5 0,01 2,89 
6 0,15 1,44 
7 0,05 0,49 
8 0,30 0,04 
9 0,45 0,09 
10 0,15 0,64 
11 0,26 1,69 
12 0,40 3,24 
13 0,56 5,29 
14 2,98 7,84 
15 1,20 10,89 


“Total 10,09 5404 - 
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Com base nos valores apresentados na última linha da tabela, temos 


ad! 
SQReg = f X (z; — T)? = 2,44? x 54,04 = 321,73 ; 


i=1 
SQRes = X (y; — & — ĝ z;)? = 10,09. 
i=l 


A tabela de ANOVA para o modelo de regressão proposto é dada por: 


a Cimo p 
Regressão 1 321,73 321,73 412,47 
Residual 13 10,09 0,78 

Total 14 331,82 


Para a = 0,05 obtemos, da distribuição de Fisher-Snedecor com 1 e 13 graus de 
liberdade, fe = 4,667. Como fp, = 412,47 > fe, rejeitamos a hipótese H, e 
concluímos que existem evidências estatísticas de que a concentração dl 
substância X, de fato, altera o ganho de peso dos bovinos. Oo 


Exercícios da Seção 9.5: 


1. Um estudo deseja avaliar o efeito de determinado treinamento no tempo de 
reação de atletas submetidos a um certo estímulo. O treinamento consiste na 
repetição de um movimento e foi utilizada uma amostra de 37 atletas. Para 
cada atleta foi atribuído um certo número de repetições (X) e então foi 
medido o tempo de reação (Y), em milisegundos. Uma reta de infnimos 
quadrados foi ajustada aos dados, fornecendo a equação 


A 
Yı = 80,5 — 0,90x;, des Lc, i 
Interprete as estimativas de œ e b. 


2. Para verificar o efeito da variável X sobre a variável Y, foi realizado um 
experimento que forneceu os pares (2:;,1;) dados por (3; 13,3), (7; 24,3) 
(5:15,9), (2; 12,8), (9; 29,6), (7; 20,5), (3; 14,5), (5; 23,3), (8: 326). 
(2:12,0) e (1; 4,6). Obtenha a reta ajustada. Construa o diagrama de dispersão 
baseando-se nos pares de valores fornecidos e, em seguida, desenhe a reta 
ajustada. Baseando-se apenas no gráfico, você diria que o ajuste é adequado? 
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3. Para verificar se existe relação entre a renda familiar (em salários mínimos) e o 
número de filhos, foi coletada uma amostra de 8 famílias em uma cidade, Os 
resultados obtidos estão na tabela a seguir: 


Família 1 2 3 4 5 6 7 8 
Renda 12 14 15 17 23 27 34 43 
Filhos 3 2 2 1 1 0 0 0 


a. Que conclusões podem ser tiradas, baseando-se em um diagrama de 
dispersão e no coeficiente de correlação? 

b. Calcule a reta de mínimos quadrados e interprete os parâmetros. Verifique 
se a renda influi no número de filhos, utilizando œ = 5%. 


9.6 Exercícios 


1. A seqüência de operações executadas por um operário para realizar uma certa 
tarefa está sendo estudada. Para tanto, 9 operários foram sorteados e mediu-se 
o tempo necessário, em minutos, para que cada um realizasse a tarefa, com os 
dois tipos de segiiências. Suponha que o modelo Normal é adequado, 


Operário 1 2 3 4 5 6 7 8 9 
Atual 24 25 27 22 23 28 26 28 29 
Nova 21 23 28 27 24 26 25 22 23 


Baseando-se nos dados fornecidos, você diria que houve diminuição no tempo 
médio para a realização da tarefa? Use a = 5%. 


2. Para se aferir o consumo de combustível, entre duas marcas de automóveis com 


mesmas características, escolheu-se 8 carros de cada marca e anotou-se O 
consumo após 100 quilômetros percorridos em uma estrada. Os resultados 


estão abaixo: 


Marca Consumo (km/1) 

XWX 95 94 9,6 91 93 9,9 9,8 10,1 

YWY 90 93 86 81 83 89 88 7,9 
Fazendo as suposições necessárias, verifique se o consumo médio das duas 
marcas é o mesmo. Use a = 5%. Admita que as marcas tenham a mesma 
variabilidade. 


3. O desempenho em duas classes de Estatística está sendo comparado através do 
resultado dos dez melhores alunos de cada turma. 


342 Capítulo 9: Tópicos Especiais 


Classe Notas 
I 85 7,5 7,0 6,5 8,5 9,5 90 90 89 10,0 
I 7,0 7,5 85 9,5 9,0 85 80 8,5 9,5 9,5 


Admitindo que as variabilidades das classes são iguais, pode ser dito que elas 
têm o mesmo desempenho médio? Faça as suposições necessárias e utilize 
a = 2%. 


4. O salário de recém formados em Veterinária foi amostrado em duas cidades. Na 
cidade A, 10 profissionais foram sorteados e na cidade B, 15. Os resultados, 
em salários mínimos, são apresentados à seguir. 


Cidade A: 7,3; 6,6; 6,8; 7,4: 8,3; 6,5; 7,9; 8,7; 8,1; 8,5 
Cidade B: 6,5; 7,8; 8,2; 6,9; 7,9; 9,7; 9,1; 9,5; 7,4; 8,0; 6,9; 7,9; 8,4; 9,3; 9,5 


Admitindo que a variabilidade do salário seja a mesma nas duas cidades e que 
o modelo Normal é adequado, verifique se a cidade B paga, em média, melhor 
do que A. Obtenha o nível descritivo e tome sua decisão utilizando um nível de 
significância a = 5%. 


5. Motoristas novatos e experientes participaram de um experimento para avaliar 
se o tempo de habilitação altera o desgaste das pastilhas de freio. Dez 
motoristas de cada tipo foram escolhidos e observou-se o número de 
quilômetros até a troca das pastilhas. Indicando por X a resposta dos novatos e 
por Y a dos experientes, os resultados amostrados (em milhares de km) foram 
os seguintes: 


10 10 10 10 
2x; =98, Jy; = 106, Yx? = 970 e = = 1.152. 
i=1 i=1 i=l i=l 
Admitindo que, para ambos os grupos, modelos com distribuição Normal com 
mesma variância são adequados, o que pode ser concluído para um nível de 
significância œ = 0,059 


6. Para estudar o impacto de cenas violentas em desenhos animados, 5 crianças 
tiveram seus batimentos cardíacos medidos, antes e após assistirem a um 
desenho comercialmente veiculado por uma grande emissora de TV. Os dados 
são apresentados a seguir: i 


— 
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Batimentos 

Criança Antes Após 
1 96 114 
2 102 112 
3 108 112 
4 89 83 
5 85 99 


5 a a i 
Qual a conclusão, considerando-se um nível de significância a 0,02? Qu 
suposições são necessárias? 
7. Deseja-se comparar o consumo de refrigerantes entre alunos do ensino 


fundamental e do ensino médio. Uma amostra desses alunos foi coletada e 
solicitou-se que indicassem o número de latas de refrigerantes que consumiam 


por dia. Os resultados, para cada grupo, foram os seguintes: 


20 20 , 
Ensino fundamental: yon = H, Sa = 610; 


i=1 i=1 


15 15 
" Ds 
Ensino médio: X yi = 34, ) y; = 1.315. 


i=1 i=1 


Supondo normalidade, verifique se as variâncias populacionais são iguan anh 
a = 10%). Com base no resultado obtido, construa um teste de hipóteses para 
decidir, ao nível 1%, se os grupos têm o mesmo consumo médio. 


8. O tempo de conexão à Internet tem sido modelado pela distribuição gi 
com desvio padrão de 10 e 7 minutos para o público jovem e a u O, 
respectivamente. Amostras independentes desses dois públicos produziram: 


6 
Adultos: Ja = 2112. 
i=l 


10 
Jovens: X yi = 367. 


i=1 


Teste, usando œa = 5%, se o tempo médio de conexão dos jovens é maior. 
3 i j 
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9. Deseja-se comparar a durabilidade de amortecedores fabricados pelas empresas 
AeB. A medida observada é o índice de resistência de cada peça testada em 
laboratório, que é assumido ter a mesma variabilidade nas duas empresas. Os 
resultados obtidos são apresentados a seguir. o 


Empresa A: 115, 123, 134, 120, 121; 
Empresa B: 125, 126, 120, 130, 128. 


Fazendo as suposições necessárias, qual a conclusão ao nível 2%? 


10. Num programa de diminuição da poluição sonora em cidades grandes 
. , 
realizou-se uma campanha educativa durante 2 meses. A tabela abaixo 


apresenta os índices alcançados antes e após a campanha em dez pontos da 
cidade sorteados ao acaso. 


Pontos da Cidade 
1 2 3 4 5 6 7 8 9 1 


Antes 23 44 56 34 25 67 21 23 73 58 
Depois 21 30 45 35 26 50 23 22 57 46 


Verifique se a campanha surtiu efei Í i 
eito, ao nível de 4%. Indique as suposiçõ 
que devem ser feitas. Í ii 


11. Um experimento com cobaias consistia em comparar o desempenho de uma 
tarefa para dois métodos de aprendizagem. Cada cobaia teve seu desempenho 
medido, atribuindo-se uma nota de O a 10. Essa medição mad 
imediatamente após cada aprendizagem. Os idealizadores do Método 2 alegam 
que seu método é mais eficiente e, portanto, deve produzir maior nota. De 
estudos anteriores, sabe-se que, após uma semana, o aprendizado de um 
método é esquecido e, portanto, fixou-se esse intervalo de tempo entre a 
aplicação dos métodos. Além disso, foi estabelecido que o modelo Normal é 


adequado para as variáveis envolvidas. As notas obtidas foram as seguintes: 


Cobaia 1 2 34 5678 9 10 
Método 1. 8 
Método 2 8 


3 
4 


Formule as hipóteses de interesse e faça o teste conveniente, considerando um 
nível de significância a = 5%. 
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12. Deseja-se comparar o tempo de recuperação pós-operatória para duas técnicas 
cirúrgicas. Pacientes operados, segundo cada uma das técnicas, foram 
selecionados aleatoriamente e seu tempo de recuperação, em dias, registrado. 
Todos os pacientes apresentavam o mesmo estado de saúde antes da cirurgia. 
Os dados obtidos são: 

Técnical 4 4 
6 6 


6 
Técnica 2 8 


5 6 

7T 7 

a. Verifique se as variâncias populacionais correspondentes às duas técnicas 
são iguais. 

b. Verifique se a Técnica 1 é mais eficiente com relação ao tempo médio de 
recuperação. Use a = 5%. 


13. Um casal está procurando um apartamento para alugar. Duas cidades, 
igualmente atrativas para o casal, estão sob consideração. A decisão sobre qual 
a cidade escolhida depende do custo do aluguel. Neste sentido, eles obtiveram 
o preço médio e a variabilidade dos preços em cada uma das cidades. Na 
primeira cidade, denominada cidade A, o preço médio e correspondente desvio 
padrão foram obtidos de uma pesquisa com 22 ofertas, fornecendo, 
respectivamente, R$455,00 e R$25,00. Na segunda cidade, B, foram 
escolhidas 30 ofertas que forneceram média de R$475,00 e desvio padrão de 
R$ 18,00. Supondo normalidade e mesma variância, pergunta-se: 
a. As cidades são equivalentes, ao nível 5%? Se não, qual é melhor? 
b. Apresente um intervalo de confiança com y = 0,95 para a diferença de 

preços entre as cidades A e B. 

14. Duas raças de cavalos estão sendo pesquisadas quanto à resistência a uma 
certa doença intestinal. O experimento consiste em ministrar uma dieta 
especial, durante 3 meses e verificar a ocorrência ou não da doença, nos 6 
meses seguintes. Os dados observados foram os seguintes: 


Tamanho da amostra | Ocorrências 
Um veterinário afirma que a raça B tem maior propensão à doença. Você 
concorda? Use a = 6%. 


Raça 


15. Estão sendo testados dois aparelhos para estabelecer suas respectivas 
confiabilidades no diagnóstico de uma certa doença. Dados foram obtidos de 


346 


Capítulo 9: Tópicos Especiais 


avaliados por um dos aparelhos, tiveram sgus casos estudados em maior 
profundidade. Desse modo, foi possível quantificar o número de falsos 
positivos ou falsos negativos advindos do uso do aparelho. Em outras 
palavras, foi possível saber o número diagnosticado falsamente pelo aparelho 
como tendo ou não a doença. Seguem as informações obtidas: 


Toul Falsos negativos 

14 

w| o | x | o 

a. Teste se os dois aparelhos produzem a mesma proporção de diagnósticos 
falsos. Use a = 4%. 

b. Dentre os que estão efetivamente doentes, isto é, os positivos e falsos 
negativos, teste se o aparelho 2 erra menos. Use a = 4%. 

c; Com base nas decisões tomadas nos dois itens anteriores, que aparelho 
seria mais aconselhável utilizar? 


exames feitos em diversos pacientes, =” ao acaso, que, após serem 


Queremos comparar três hospitais, através da satisfação demonstrada por 
pacientes quanto ao atendimento, durante o período de internação. Para tanto, 
foram selecionados, aleatoriamente, pacientes com grau de enfermidade 
semelhante. Cada paciente preencheu um questionário e as respostas geraram 
índices variando de O a 100, indicando o grau de satisfação. Os resultados 
foram: 


Hospital 
A B Ç 
Tamanho da amostra 10 15 13 
Média amostral 80,7 59,0 723 
Variância amostral 113,3 101,4 106,5 


a. Baseando-se nos dados apresentados, teste a igualdade das variâncias para 
os hospitais A e B. Use œ = 0,10. 

b. Teste se as médias populacionais são iguais. Qual sua conclusão? Use 
a = 0,05. 


17. Pacientes resolveram processar a clínica de emagrecimento Linha Fina sob a 


alegação de que o tratamento empregado não contribui para a diminuição do 
peso. O advogado de defesa contratou um estatístico que selecionou, 
aleatoriamente, 10 prontuários que continham informação a respeito dos 
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pesos dos pacientes, tomados no início e no final do tratamento. Os dados 
obtidos foram (em kg): 


Número do paciente 
1 2 3 4 D 6 7 8 9 10 
Início 80 104 94 62 70 80 102 58 78 84 
Final 78 95 87 60 71 82 94 65 78 80 


a. Faça uma análise descritiva para os dados e obtenha uma conclusão 
preliminar. 

b. Verifique se a conclusão do item anterior tem suporte estatístico. Formule 
as hipóteses adequadas e encontre a região crítica correspondente a 


a = 0,05. 


18. Uma linha de montagem utiliza robôs para a realização das tarefas necessárias 
para a montagem de um produto. Os técnicos acreditam que é necessário uma 
programação diferente para garantir a qualidade do produto final, mas 
suspeitam que o tempo necessário para completar o processo pode aumentar. 
Para verificar essa suspeita, 12 robôs foram selecionados e o tempo necessário 
para a montagem do produto foi medido, considerando-se a programação usual 
e a nova proposta. Os tempos observados (em minutos) para cada unidade 
foram medidos, produzindo a tabela a seguir. 


Tipo de Identificação do Robô 
Programação 1 2 3 4 5 6 7 8 9 10 11 12 
Usual 80 90 93 92 75 92 72 87 90 86 78 97 
Nova 100 85 90 102 90 99 97 95 100 94 89 98 


a. Faça uma análise descritiva adequada a estes dados. O que pode ser dito, 
baseando-se nessa análise? 

b. Existe diferença para os diferentes tipos de programação? 

c. Construa um intervalo de confiança de confiança com y = 95% para a 
diferença das médias populacionais dos tempos de montagem do produto. 


19. O custo de manutenção de treminhões movidos a gasolina e a diesel são dados 
abaixo para duas amostras aleatórias de 10 treminhões de cada tipo. Os 
veículos considerados trafegam sob as mesmas condições em uma mesma 
área. 


348 Capítulo 9: Tópicos Especiais 


Combustível Custos 
Gasolina 12,43 9,70 1,35 5,78 5,05 10,98 14,27 15,09 7,61 5,78 
Diesel 12,26 5,13 3,32 14,72 4,17 12,72 8,89 9,95 2,94 5,06 
TETO SEO SS SE Cho O ee a ea aE 


a. Quais são as hipóteses necessárias para construir um intervalo de confiança, 
para a diferença das médias dos custos? 


b. Verifique se as variâncias dos dois grupos são semelhantes. 
c. Teste a igualdade de médias dos dois grupos, considerando a = 5%. 


20. (Use o computador) Uma loja de departamentos está interessada em saber se 


existem diferenças entre as quantias médias faturadas, através de três formas ` 


de pagamento: dinheiro (D), cheque (C) e cartão de crédito (CC). Um 
levantamento das vendas (em milhares de reais), em um dado período de 
tempo, foi feito, produzindo os dados na tabela a seguir. 


Formas de Pagamento 
D C CC 
56,00 80,90 73,25 
20,50 51,29 56,65 
37,37 40,95 123,21 
28,64 72,65 56,50 


132,47 37,29 
60,32 44,65 
60,00 40,64 


a. Calcule algumas medidas descritivas (média, variância, etc.) e, baseado 
nelas, discuta se existem evidências de diferenças. 

b. Assumindo que as variâncias são iguais para os três grupos, compare 
estatisticamente as médias populacionais para verificar se existem 
diferenças. Use a = 0,05. 


21. Quatro diferentes espécies de milho foram produzidas em laboratório. Deseja- 
se testar, a um nível de significância «= 5%, se existe diferença 
estatisticamente significativa entre as produtividades. Para tanto, foram 
montados 34 canteiros, plantando-se neles o mesmo número de sementes e 
garantindo-se a todos as mesmas condições de fertilidade, irrigação e 
exposição à luz solar. Após um período de tempo pré-especificado, a 
produção de cada canteiro, em kg, foi obtida. Os resultados observados 
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sofreram um tratamento inicial, e as seguintes informações foram 


disponibilizadas: 
Espécies 
i 1 2 3 4 
e E E l IM 
Ni 9 10 7 8 


Y; 90,56 86,40 95,71 83,63 
S2 13,28 14,27 13,23 16,55 
1 n 


(0) que fode ser concluído com base na tabela? 


22. (Use o computador) O custo mensal de manutenção de hang un de 
automóvel (excluindo-se combustível e trocas de óleo) está sendo analisa j em 
função da idade do veículo. Nove automóveis fabricados em diferentes anos 
tiveram o custo averiguado. Os dados obtidos foram: 


Idade do veículo (anos) 


12 3 4 5 6 7 8 9 
Custo mensal (reais) 8 13 18 20 24 26 29 32 37 
_Custo mensat reals) DID —— 


a. Faça um gráfico de dispersão e calcule o coeficiente de correlação. Comente 


o resultado. = 
b. Ajuste a reta de regressão pelo método de mínimos quadrados. Como você 


interpretaria o coeficiente 5? 
23. Verifique se é razoável considerar um modelo de regressão linear 


relacionando as notas de Inglês (Y)e Português (X ), segundo os dados 
apresentados na tabela a seguir. Sua conclusão deve ser baseada no coeficiente 


de correlação e no ajuste da reta de regressão. 


iscipli Notas 

Disciplinas 

Inglês 5,5 3,5 7,0 25 85 6,9 6,0 40 0,5 5,0 
Português 7,0 45 85 35 9,0 45 5,0 5,5 1,5 6,5 
EMI is 


24. (Use o computador) Uma indústria submete seus novos operários a um teste 
de aptidão (X) e três meses depois mede a produtividade destes operários (Y). 


Os resultados estão na tabela a seguir 
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Operário A B C D E F 
Aptidão (X) 22 25 15 19 22 18 
Produtividade (Y) 45 37 25 40 33 30 


a. Faça o gráfico de dispersão e calcule o coeficiente de correlação. Comente o 


resultado. 


b. Ajuste a reta de regressão e trace-a no gráfico de dispersão. Qual a 


interpretação para os coeficientes a e 8? 


c. Verifique estatisticamente se a produtividade é influenciada pela aptidão 


Use a = 0,05. 


d. Para um indivíduo com aptidão igual a 20, qual seria a produtividade 


esperada? 


25. Um estudo pretende avaliar o efeito da obesidade na pressão sangüínea. Para 
tanto, foram avaliados os pesos para 6 indivíduos e construída a variável X 
representando a razão entre os pesos real e ideal. Estudos indicam que um 


modelo de regressão linear simples é adequado para essa situação. Os dados 
obtidos foram: 


Indivíduo 1 2 3 4 5 6 
Razão (x) 1,23 1,42 1,35 1,67 1,65 1,56 
Pressão sistólica (Y) 129 130 133 139 136 134 

a. Construa a variável auxiliar d = x — T. 
b. Ajuste a reta y = a+ Bd. 
c. Qual a interpretação para a na reta obtida em (b)? 


d. Qual a pressão sistólica esperada para indivíduos com razão peso real/peso 
ideal igual a 1,25? 


26. Estuda-se a relação linear entre duas variáveis X e Y. Uma amostra de 20 
pares dessas variáveis forneceu os seguintes valores: 

20 20 20 20 20 

Di = 600, Ei = 2.150, $x? = 18.662, )y; = 235.270, > ziyi = 65.921 

i= i= i=1 i=1 i=1 
Determine a correlação e ajuste uma reta aos dados. 


27. Um estudo foi conduzido para verificar se as pessoas estimam os próprios 
pesos corretamente. No experimento realizado, 15 pessoas foram selecionadas 
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a0 acaso e a cada uma delas perguntou-se os pesos, que depois foram aferidos 
em balanças devidamente calibradas. Os resultados são apresentados a seguir. 


DO STS 


Indivíduo 


1 ET 


Peso 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 


teso 4 MMC a 
Estimado 82 58 69 70 54 62 92 75 45 81 78 65 56 63 70 
Real 83 57 73 76 55 60 98 74 44 82 76 67 54 60 71 


O que pode ser concluído a partir dos dados? 


28. A quantidade de chuva é um fator importante na produtividade agrícola. Para 
medir esse efeito, foram anotadas, para 8 regiões diferentes produtoras de soja, 
o índice pluviométrico e a produção do último ano. 


Chuva (mm) | 120 
Produção (ton) 


a. Faça um gráfico de dispersão e calcule o coeficiente de correlação. Comente 
o resultado. 

b. Ajuste a reta de regressão. Como você interpretaria o coeficiente 8? 

c. Utilizando a reta ajustada no item (c), encontre a produção esperada para 
uma região com índice pluviométrico igual a 160 mm. 

d. É adequado utilizar o modelo ajustado para calcular a produção em uma 
região cujo índice pluviométrico é igual a 30 mm? Comente. 


. 29. (Use o computador) Para os dados do arquivo areas.txt (veja Exercício 25 do 


Capítulo 1), suponha que os apartamentos são classificados como de andar 

baixo, para a unidade situada entre os 1º ao 6º andares (inclusive); 

intermediário, se o apartamento se encontra do 7º ao 12º andar e de andar alto, 
se estiver situado acima do 122 andar. Suspeita-se que apartamentos de andares 
mais baixos podem não ter o tamanho especificado no memorial descritivo. 

a. Construa histogramas para as medidas de área da sala para cada um dos 
grupos formados (andar baixo, intermediário e alto). Discuta se o modelo 
Normal é adequado para essa situação 

b. Dependendo de cada uma das três categorias de andar criadas, construa um 
gráfico box-plot para as áreas da sala e discuta se a localização interfere 
com o tamanho da sala. 

c. Usando um modelo de análise de variância, verifique se existem evidências 
estatísticas que dêem suporte à conclusão apresentada no item (b). Utilize 
um nível de significância a = 0,01. 
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d. Repita os itens anteriores para a área total do apartamento, definida como a 
soma das áreas da sala, cozinha, banheiro e dormitório. 


Apêndice A / 


pi | 


30. (Use o computador) Para este exercício será necessário utilizar o arquivo 
cancer.txt, cuja descrição é dada no Exercício 24 do Capítulo 1. Deseja-se 
verificar se conforme aumenta a idade, muda a concentração de nitrogênio na 
uréia. 

a. Suponha que selecionamos apenas os pacientes que têm a doença (isto é, 
consideramos o grupo formado por pacientes cujo diagnóstico é falso- 
negativo ou positivo). Construa um gráfico de dispersão para idade e 
concentração de nitrogênio. O que pode ser dito? 

b. Supondo que a variável dependente é a concentração de nitrogênio e que a 
covariável é a idade do paciente, calcule estimativas para a e 8, em um 
modelo de regressão linear. Qual é a interpretação de / nesse caso? 

c. Construa uma tabela ANOVA para verificar, ao nível de 5%, se existe 
evidência estatística de que a idade influencia na concentração de 
nitrogênio. 

d. Considere, agora, os pacientes que não têm a doença (diagnóstico negativo 
ou falso-positivo). Construa um gráfico de dispersão para idade e 
concentração de nitrogênio. Compare com o gráfico obtido no item (a). 

e. Calcule as estimativas para a e / nesse caso e interprete 8. O que pode ser 
dito ao se comparar com os resultados do item (b)? 

f. Verifique se a idade influencia a concentração de nitrogênio para os 
pacientes sem a doença. Considere a = 5%. 

g. Com base nos itens anteriores, compare visualmente as retas ajustadas e as 
estimativas obtidas. Você diria que o efeito da idade, na concentração de 
nitrogênio, é um dado importante para discriminar entre pacientes com e 
sem a doença? 


Distribuição Normal 

Distribuição t - Student 

Distribuição Qui-Quadrado 
Distribuição Fisher-Snedecor ( 0,05 ) 
Distribuição Fisher-Snedecor ( 0,95 ) 


31. (Use o computador) Para este exercício será necessário utilizar o arquivo 
aeusp.txt, cuja descrição é dada no Exercício 26 do Capítulo 1. 
a. Teste se a média da variável Itrab é a mesma nas sub-populações definidas 
pelo estado civil dos residentes. 
b. Repita o item (a) com as 'sub-populações definidas pelo local de moradia. 
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Distribuição Normal: Valores de p tais que P(0<Z<z)= 


Segunda decimal de z, 

fes ca 203 q so o 

0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 02123 0,2157 
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 
0,7 0,2580. 0,2611 0,2642 0,2673 02704 0,2734 0,2764 0,2794 
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 


0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340. 
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,39975 
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131" 0,4147 0,4162 
1,4 0,4192 0,4207 0,4222 0,4236 0,425] 0,4265 0,4279 0,4292 0,4306 

1,5 0,4332 0,4345 0,4357 0,4370 0,4382- 0,4394 0,4406 0,4418 0,4429. 
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 

1.7 0,4554 0,4564 0,4573 0,4582 0,4591 0,459? 0,4608 0,4616 
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 ` 0,4808 
21 0.4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4 
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 10,4906 0,4909 0,4911. 
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 
2,5 0,4938 0,4940 0,4941 0,4943 0,4945. 0,4946 0,4948 0,4949 O, 
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,497] 0,4972 
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4785 0,4985 
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,498? 
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4772 
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996. 0,4996 0,4976 
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4978 
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,499? 
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0, 0,5000 3,9 


decimal de Ze 


. 


Parte inteira e primeira 
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Apêndice B 


Respostas dos Exercícios 


Observações: 


1. Nos exercícios de seção a resposta será, na maioria das vezes, acompanhada de 
indicações da resolução. 

2. Para os exercícios de fim de capítulo serão apresentadas as respostas para Os 
exercícios ímpares. 

3. Os exercícios de computação e de demonstração não terão suas respostas 
apresentadas. 

4. Pequenas diferenças em algumas respostas poderão refletir diferentes 
aproximações e casas decimais utilizadas. 

5. Para não tornar muito extenso esse apêndice, os gráficos solicitados foram 
omitidos na apresentação das respostas. 
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